Google bruker AI til å lage digitale podcaster
Kunstig intelligens forvandler nå bransje etter bransje. Podcastgenerering er et av de mange spennende bruksområdene, der en mengde tekstfiler raskt kan forvandles til en digital samtale.
Alle som går i gang med en podcast vet at det kreves mye tid til manus, opptak og redigering. Til gjengjeld vet man nøyaktig hvordan innholdet blir. Man får den produksjonen man ønsker, både når det gjelder stemme og tonefall.
Men hva hvis man ikke har den nødvendige ekspertisen eller tiden som er nødvendig?
I dag kan AI-verktøy lage digitalt innhold i mange former nærmest umiddelbart, og podcaster er ikke noe unntak. Verktøyene håndterer alt fra manus til stemmegenerering. Med denne teknologien kan alt fra reklamebyråer og utdannelsesinstitusjoner til bedrifter og offentlige etater skape lydinnhold i stor skala – uten de tradisjonelle kravene til hverken tid eller teknisk ekspertise.
AI-drevne podcastgeneratorer automatiserer hvert steg, slik at brukerne kan forvandle ideer, blogger eller nyhetsbrev til nye lydformater. Etter hvert som verktøyene fortsetter å utvikle seg, vil de kunne gjøre podcastproduksjon enda mer tilgjengelig og ikke minst mer skalerbar.
Notatbok med innhold
I mengden av relativt anonyme podcastgeneratorer finner vi også noen kjente navn. NotebookLM er Googles podcastgenerator der brukerne kan fylle digitale notatbøker – og skape innhold i stadig nye former.
Før sommeren kom Google med første versjon av dette verktøyet. Et verktøy der man fyller opp notatbøker med innhold og får svar på spørsmålene, gjerne kalt promptene. Temmelig likt de tradisjonelle språkmodellene som ChatGPT, men der brukerne legger inn alle data selv. NotebookLM går ikke ut på nettet for å finne svarene.
Med to stemmer som sitter i studio og prater om et tema, er det fort gjort at det blir oppfattet som en podcast.Sondre Ronander, Google
Men nå kommer ikke disse svarene lenger bare som tekst. De kan komme som lyd.
Og i mangel på noe bedre, er disse AI-verktøyene blitt plassert under podcastparaplyen.
– Det er vel en form for audio-output, som jo egentlig omfatter litt mer. Med to stemmer som sitter i studio og prater om et tema, er det fort gjort at det blir oppfattet som en podcast, sier kommunikasjonssjef Sondre Ronander i Google.
I Gemini-familien
Men NotebookLM er ikke en programvare som skal lastes ned. – Det er rett og slett en webapplikasjon, en nettside. Man trenger ikke laste ned noe som helst, forteller kommunikasjonssjefen i Google.
– Det er enda en tjeneste som benytter seg av de store språkmodellene, og i Google er den en del av Gemini-familien. Det spennende med disse modellene er at de har veldig mange applikasjoner, og bedrifter og organisasjoner begynner nå å se hva teknologien kan brukes til utover det å skrive gøyale dikt.
Ronander forteller at Google lot et team med teknologer og designere sette seg sammen for kjapt å bygge noe de hadde lyst til. – Ideen var å lage en slags utvidet studiehjelp som kunne indeksere og gi tilgang til mange kilder på en god måte.
Arbeidet gav raskt resultater. – Gemini er den store språkmodellen til Google som inneholder enormt med fakta og kunnskap. Men så har du denne utfordringen med at modellene kan hallusinere. De kan finne på ting. Det du da gjør, er å ta evnen som disse modellene har til å analysere veldig mye informasjon, men begrense det til hva du selv velger å laste opp av kilder.
– Google har også bygget Gemini-modellene til å være såkalt multimodale. Det vil si at de både kan ta imot og sende ut data i ulike medieformater. Du kan laste opp YouTube-videoer og lydfiler, tekst og bilder, og modellen forstår alle disse kildene. Så kan du be notatboken utnytte informasjon fra alle.
Ronander er også ivrig til å påpeke at Googles modeller ikke bruker kildene som blir lastet inn til å trene opp noen av selskapets språkmodeller.
– Du kan laste opp bedriftens egen interne informasjon, og være sikker på at det ikke havner noe annet sted enn i din egen notatbok, forteller Ronander.
Rapporter gir svar
Podcastgenerering var imidlertid ikke det første som var på plass da NotebookLM ble lansert i mars–april. Notatbøkene var også klare for å svare på spørsmål. Det er også fullt mulig å laste opp flere notatbøker på nettsiden.
– For å fylle opp en notatbok kan du klikke slik at du kommer inn på din egen Google Drive og laste opp filer fra din egen datamaskin. Eller du kan legge inn en link til en YouTube-film, eller bare linke til en nettside.
– Til hele nettsiden?
– Hvis det er en nettside med mye bra informasjon, kan det være litt klønete å klippe og lime tekst derfra. Notatboken kan lese hele URLen og hente informasjon derfra.
Ronander har brukt mye tid på å laste inn data – og be om svar. – I en av mine notatbøker samler jeg inn ulike rapporter om generativ AI. Der ligger det både McKinsey-rapporter og egne rapporter der vi henter data fra konsulenter.
Google-eksperten ville da enkelt og greit vite hvordan generativ AI kan påvirke norsk økonomi i fremtiden. – Svaret jeg fikk fra alle disse kildene var at generativ AI kan øke norsk BNP med 350 milliarder kroner i året. Da får du også kildehenvisninger, du kan dobbeltsjekke hvorfor modellen kommer opp med akkurat dette tallet, og du kan sikre at den ikke finner på tallene, forteller Ronander og fortsetter:
– Jeg jobber også mye med dere i pressen. Da er det veldig nyttig å kunne forberede seg på intervjuer. Da kan jeg få modellen til å komme opp med ti ekle spørsmål journalisten kan finne på å stille.
De fire siste statsbudsjettene havnet også i en notatbok hos Ronander. – Jeg ville vite hvor mye inntektsskatten faktisk har endret seg i løpet av den perioden, og så kommer det faktisk ut et svar på den andre siden.
– Du kan laste opp en vanvittig mengde informasjon som umiddelbart er tilgjengelig for deg.
Output med lyd
Helt i starten av høsten, i september–oktober, kom så funksjonen der man som bruker av NotebookLM kan utnytte de samme kildene for å lage en podcast. – Modellene er altså multimodale, resultatet kan presenteres på mange måter. For eksempel i form av lyd, sier Ronander.
– Jeg visste at podcastgeneratoren ville bli lansert et par dager i forveien, men jeg hadde ikke fått noen tilbakemeldinger og var bare forsiktig optimist på hvor kult dette egentlig var. Man har jo en viss idé om hvordan en AI-stemme høres ut. De sier de riktige ordene, men det er noe med tonefall og slike ting som ikke helt stemmer.
– Hvordan ble førsteinntrykket?
– I den første podcasten klarte disse vertene å snakke på en måte som er veldig naturlig, og med de pausene som er naturlige. De avbryter hverandre også, de klarer å høres engasjert ut på de riktige stedene. Her kan altså travle folk få svar på øret i stedet for å måtte bla igjennom for eksempel en McKinsey-rapport. Podcastformatet er veldig nyttig for å få en rask gjennomgang av et bredt tema.
Bare på engelsk
– Den versjonen av NotebookLM som ligger ute på nettet – er det en betaversjon som fortsatt er til testing?
– Vi kaller det et eksperiment. Vi får utrolig mye bra feedback. Mye av denne teknologien er så ny, og det går så fort. Vi trenger mye feedback, sier Ronander.
For ordens skyld; adressen er notebooklm.google.com.
En gang snakket de to seks til syv minutter, og når jeg økte mengden input, ble det ti til elleve minutter.Sondre Ronander, Google
Og det er fortsatt flere begrensninger i den versjonen som nå ligger ute på nettet. Podcasten er en samtale mellom to personer.
– Det er ikke mulig å øke antall deltagere?
– Nei, ikke i dag, svarer Ronander.
Det er heller ikke mulig å endre sammensetningen av deltagerpanelet. Det er en mannsstemme og en kvinnestemme.
– Hva med lengden på podcastene? Kan brukerne bestemme det?
– Det avhenger helt av hvor mye data du legger inn. Jeg har selv forsøkt meg frem. En gang snakket de to i seks til syv minutter, og da jeg økte mengden input, økte lengden på samtalen til ti–elleve minutter.
– Brukerne kan heller ikke bestemme hvor lang podcasten skal være?
– Nei, det stemmer.
Den største begrensningen, og det er slett ikke overraskende, er likevel at podcasten foregår på engelsk. Det er ingen begrensning på innholdet som kan lastes opp i notatbøkene, det kan være på både norsk, fransk, usbekisk og kinesisk.
– Jeg jobber selv som regel på engelsk, og derfor er ikke dette med språk noen utfordring, sier Ronander.
Men han bekrefter at det i dag ikke er mulig å få podcasten lest på norsk. Heller ikke på langt mer utbredte språk som spansk, fransk eller tysk.
– Men Google jobber alltid for å få produktene og tjenestene våre ut på flest mulig tilgjengelige språk. Noen språk går alltid litt raskere fordi både kildematerialet og antallet aktuelle brukere er større.
– Norsk tilhører ikke den kategorien?
– Det gjør nok ikke det ennå.
Tar litt av æren
Ronander ser også forbedringspotensial for tonefallet – en detalj som er viktig dersom AI-genererte podcaster skal erstatte de virkelige.
– De AI-genererte stemmene er ganske positive og lystige, men jeg har aldri ledd av dem.
Brukerne har heller ingen mulighet til å gi podcasten et mer alvorlig preg. – Det bør bli en valgmulighet for eksempel å gjøre podcastvertene mer kritiske. Jeg vil utfordre dem med en uttalelse eller et standpunkt – og jeg trenger kritisk feedback.
Google har levd litt i skyggen av OpenAI og Microsoft, men Googles kommunikasjonssjef står på at det var Google som tilbake i 2018–19 sto bak den forskningsartikkelen som ligger til grunn for den underliggende arkitekturen eller teknologien for generativ AI.
– Google tar på seg æren for ChatGPT?
– Vi skal i hvert fall ha æren for å ha funnet opp den underliggende infrastrukturen. La meg gi deg en litt banal sammenligning. Mercedes-Benz kan kanskje ikke få æren for Range Rover. Men det var tyskerne som hadde den første forbrenningsmotoren. Vi fant opp forbrenningsmotoren, og så klarte OpenAI å finne et “product market fit” med sin ChatGPT. Det skapte oppmerksomheten rundt hva disse språkmodellene kunne få til, konkluderer Ronander.