AudioPaLM: Een Taalmodel op Grote Schaal Dat Kan Spreken en Luisteren

Samenvatting

We introduceren AudioPaLM, een groot taalmodel voor spraakbegrip en -generatie. AudioPaLM integreert tekstgebaseerde en spraakgebaseerde taalmodelen, PaLM-2 [Anil et al., 2023] en AudioLM [Borsos et al., 2022], in een uniforme multimodale architectuur die tekst en spraak kan verwerken en genereren, met toepassingen zoals spraakherkenning en spraak-naar-spraakvertaling. AudioPaLM erft de mogelijkheid om paralinguïstische informatie zoals sprekeridentiteit en intonatie te behouden van AudioLM, en de linguïstische kennis die alleen aanwezig is in tekstgebaseerde grote taalmodelen zoals PaLM-2. We tonen aan dat het initialiseren van AudioPaLM met de gewichten van een tekstgebaseerd groot taalmodel de spraakverwerking verbetert, waarbij succesvol gebruik wordt gemaakt van de grotere hoeveelheid teksttrainingsdata die tijdens de pretraining is gebruikt om spraaktaken te ondersteunen. Het resulterende model presteert aanzienlijk beter dan bestaande systemen voor spraakvertalingstaken en heeft de mogelijkheid om zero-shot spraak-naar-tekstvertaling uit te voeren voor veel talen waarbij de combinatie van invoer- en doeltaal niet tijdens de training is gezien. AudioPaLM toont ook kenmerken van audiotalamodelen, zoals het overdragen van een stem tussen talen op basis van een kort gesproken prompt. We publiceren voorbeelden van onze methode op https://google-research.github.io/seanet/audiopalm/examples.

English

We introduce AudioPaLM, a large language model for speech understanding and generation. AudioPaLM fuses text-based and speech-based language models, PaLM-2 [Anil et al., 2023] and AudioLM [Borsos et al., 2022], into a unified multimodal architecture that can process and generate text and speech with applications including speech recognition and speech-to-speech translation. AudioPaLM inherits the capability to preserve paralinguistic information such as speaker identity and intonation from AudioLM and the linguistic knowledge present only in text large language models such as PaLM-2. We demonstrate that initializing AudioPaLM with the weights of a text-only large language model improves speech processing, successfully leveraging the larger quantity of text training data used in pretraining to assist with the speech tasks. The resulting model significantly outperforms existing systems for speech translation tasks and has the ability to perform zero-shot speech-to-text translation for many languages for which input/target language combinations were not seen in training. AudioPaLM also demonstrates features of audio language models, such as transferring a voice across languages based on a short spoken prompt. We release examples of our method at https://google-research.github.io/seanet/audiopalm/examples

AudioPaLM: Een Taalmodel op Grote Schaal Dat Kan Spreken en Luisteren

AudioPaLM: A Large Language Model That Can Speak and Listen

Samenvatting

Support