Hopp til innhold
NB EN
Nettsak

Microsoft åpner kildekoden til avansert tale-AI

Microsoft har lansert VibeVoice, et "frontier-nivå" åpen kildekode-prosjekt for talesyntese og talegjenkjenning. Ved å gjøre teknologien fritt tilgjengelig via GitHub, utfordrer Mi...

Håkon Berntsen 2 min lesetid
Microsoft åpner kildekoden til avansert tale-AI
Illustrasjon: Nettsak

Microsoft har lansert VibeVoice, et "frontier-nivå" åpen kildekode-prosjekt for talesyntese og talegjenkjenning. Ved å gjøre teknologien fritt tilgjengelig via GitHub, utfordrer Microsoft trenden med proprietære AI-modeller og demokratiserer tilgang til avansert tale-teknologi.

Hva er "Frontier Speech AI"?

Begrepet "frontier" brukes om AI-modeller som representerer det beste som finnes innen sitt felt. VibeVoice posisjoneres som en ledende løsning for:

  • Talesyntese (tekst-til-tale)
  • Talegjenkjenning (tale-til-tekst)
  • Sanntidsoversettelse
  • Syntetiske medier

Det som gjør VibeVoice spesielt, er at den er fullstendig åpen kildekode – alle kan se, endre og bruke koden uten lisensavgifter.

Hvorfor er åpen kildekode viktig?

Når Microsoft slipper "frontier"-modeller som åpen kildekode, skjer flere ting:

  1. Innovasjon akselereres: Utviklere verden over kan bygge videre på teknologien
  2. Mindre selskaper får tilgang: Løsninger som tidligere var kostbare, blir gratis
  3. Lokalisering blir enklere: Språk som norsk, samisk og andre minoritetsspråk kan få bedre støtte
  4. Transparens øker: Alle kan inspisere koden for sikkerhet og bias

Tidligere lansering: VibeVoice-ASR

Microsoft lanserte allerede VibeVoice-ASR (Automatic Speech Recognition) i januar 2026. Den modellen var spesialisert på langformaudio, perfekt for podcaster, møteopptak og transkribering.

Den nyeste versjonen (VibeVoice 1.5B) kan:

  • Generere opptil 90 minutters tale
  • Bruke fire distinkte stemmer
  • Produsere naturlig lydende syntetisk tale fra en enkelt tekstprompt

Konsekvenser for norsk teknologi

For norske utviklere og bedrifter åpner VibeVoice døren til:

  • Bedre norsk TTS for tilgjengelighetssystemer
  • Gratis talegjenkjenning for oppstartsselskaper
  • Samisk talesyntese (ved finjustering av modellen)
  • Konkurransedyktige AI-produkter uten lisenskostnader

Utfordrer OpenAI og Google

Microsofts strategi med åpen kildekode står i kontrast til OpenAI (delvis eid av Microsoft selv) og Google, som holder sine beste talemodeller proprietære. Ved å "åpne" frontier-modeller, håper Microsoft å:

  • Etablere GitHub som det primære knutepunktet for AI-innovasjon
  • Bygge et utviklerfellesskap rundt sine verktøy
  • Forbli konkurransedyktig selv om andre selskaper har bedre proprietære modeller

Kilder:

  • AIToolly (31. mars 2026)
  • Microsoft GitHub-dokumentasjon
  • Reddit /r/StableDiffusion

Relaterte emner: #Microsoft #ÅpenKildekode #TaleSyntese #AI #Norge #GitHub

Relaterte saker