AudioPaLM: Ein großes Sprachmodell, das sprechen und hören kann
AudioPaLM: A Large Language Model That Can Speak and Listen
June 22, 2023
Autoren: Paul K. Rubenstein, Chulayuth Asawaroengchai, Duc Dung Nguyen, Ankur Bapna, Zalán Borsos, Félix de Chaumont Quitry, Peter Chen, Dalia El Badawy, Wei Han, Eugene Kharitonov, Hannah Muckenhirn, Dirk Padfield, James Qin, Danny Rozenberg, Tara Sainath, Johan Schalkwyk, Matt Sharifi, Michelle Tadmor Ramanovich, Marco Tagliasacchi, Alexandru Tudor, Mihajlo Velimirović, Damien Vincent, Jiahui Yu, Yongqiang Wang, Vicky Zayats, Neil Zeghidour, Yu Zhang, Zhishuai Zhang, Lukas Zilka, Christian Frank
cs.AI
Zusammenfassung
Wir stellen AudioPaLM vor, ein großes Sprachmodell für das Verstehen und Erzeugen von Sprache. AudioPaLM vereint textbasierte und sprachbasierte Sprachmodelle, PaLM-2 [Anil et al., 2023] und AudioLM [Borsos et al., 2022], in einer einheitlichen multimodalen Architektur, die Text und Sprache verarbeiten und generieren kann, mit Anwendungen wie Spracherkennung und Sprach-zu-Sprach-Übersetzung. AudioPaLM erbt die Fähigkeit, paralinguistische Informationen wie Sprecheridentität und Intonation von AudioLM zu bewahren, sowie das linguistische Wissen, das nur in textbasierten großen Sprachmodellen wie PaLM-2 vorhanden ist. Wir zeigen, dass die Initialisierung von AudioPaLM mit den Gewichten eines rein textbasierten großen Sprachmodells die Sprachverarbeitung verbessert und erfolgreich die größere Menge an Texttrainingsdaten nutzt, die beim Vortraining verwendet wurden, um Sprachaufgaben zu unterstützen. Das resultierende Modell übertrifft bestehende Systeme für Sprachübersetzungsaufgaben deutlich und besitzt die Fähigkeit, Zero-Shot-Sprach-zu-Text-Übersetzungen für viele Sprachen durchzuführen, für die Eingabe-/Zielsprachkombinationen im Training nicht vorkamen. AudioPaLM zeigt auch Merkmale von Audio-Sprachmodellen, wie die Übertragung einer Stimme über Sprachen hinweg basierend auf einer kurzen gesprochenen Eingabe. Wir veröffentlichen Beispiele unserer Methode unter https://google-research.github.io/seanet/audiopalm/examples.
English
We introduce AudioPaLM, a large language model for speech understanding and
generation. AudioPaLM fuses text-based and speech-based language models, PaLM-2
[Anil et al., 2023] and AudioLM [Borsos et al., 2022], into a unified
multimodal architecture that can process and generate text and speech with
applications including speech recognition and speech-to-speech translation.
AudioPaLM inherits the capability to preserve paralinguistic information such
as speaker identity and intonation from AudioLM and the linguistic knowledge
present only in text large language models such as PaLM-2. We demonstrate that
initializing AudioPaLM with the weights of a text-only large language model
improves speech processing, successfully leveraging the larger quantity of text
training data used in pretraining to assist with the speech tasks. The
resulting model significantly outperforms existing systems for speech
translation tasks and has the ability to perform zero-shot speech-to-text
translation for many languages for which input/target language combinations
were not seen in training. AudioPaLM also demonstrates features of audio
language models, such as transferring a voice across languages based on a short
spoken prompt. We release examples of our method at
https://google-research.github.io/seanet/audiopalm/examples