AudioPaLM : Un modèle de langage à grande échelle capable de parler et d'écouter
AudioPaLM: A Large Language Model That Can Speak and Listen
June 22, 2023
Auteurs: Paul K. Rubenstein, Chulayuth Asawaroengchai, Duc Dung Nguyen, Ankur Bapna, Zalán Borsos, Félix de Chaumont Quitry, Peter Chen, Dalia El Badawy, Wei Han, Eugene Kharitonov, Hannah Muckenhirn, Dirk Padfield, James Qin, Danny Rozenberg, Tara Sainath, Johan Schalkwyk, Matt Sharifi, Michelle Tadmor Ramanovich, Marco Tagliasacchi, Alexandru Tudor, Mihajlo Velimirović, Damien Vincent, Jiahui Yu, Yongqiang Wang, Vicky Zayats, Neil Zeghidour, Yu Zhang, Zhishuai Zhang, Lukas Zilka, Christian Frank
cs.AI
Résumé
Nous présentons AudioPaLM, un grand modèle de langage pour la compréhension et la génération de la parole. AudioPaLM fusionne des modèles de langage basés sur le texte et sur la parole, PaLM-2 [Anil et al., 2023] et AudioLM [Borsos et al., 2022], dans une architecture multimodale unifiée capable de traiter et de générer du texte et de la parole, avec des applications incluant la reconnaissance vocale et la traduction parole-à-parole. AudioPaLM hérite de la capacité à préserver les informations paralinguistiques telles que l'identité du locuteur et l'intonation d'AudioLM, ainsi que des connaissances linguistiques présentes uniquement dans les grands modèles de langage basés sur le texte comme PaLM-2. Nous démontrons que l'initialisation d'AudioPaLM avec les poids d'un grand modèle de langage uniquement textuel améliore le traitement de la parole, en exploitant avec succès la plus grande quantité de données textuelles utilisées lors du pré-entraînement pour assister les tâches de parole. Le modèle résultant surpasse significativement les systèmes existants pour les tâches de traduction vocale et possède la capacité d'effectuer une traduction parole-à-texte en zero-shot pour de nombreuses langues pour lesquelles les combinaisons de langues d'entrée/cible n'ont pas été vues lors de l'entraînement. AudioPaLM démontre également des caractéristiques des modèles de langage audio, comme le transfert d'une voix à travers les langues basé sur un court échantillon vocal. Nous publions des exemples de notre méthode à l'adresse https://google-research.github.io/seanet/audiopalm/examples.
English
We introduce AudioPaLM, a large language model for speech understanding and
generation. AudioPaLM fuses text-based and speech-based language models, PaLM-2
[Anil et al., 2023] and AudioLM [Borsos et al., 2022], into a unified
multimodal architecture that can process and generate text and speech with
applications including speech recognition and speech-to-speech translation.
AudioPaLM inherits the capability to preserve paralinguistic information such
as speaker identity and intonation from AudioLM and the linguistic knowledge
present only in text large language models such as PaLM-2. We demonstrate that
initializing AudioPaLM with the weights of a text-only large language model
improves speech processing, successfully leveraging the larger quantity of text
training data used in pretraining to assist with the speech tasks. The
resulting model significantly outperforms existing systems for speech
translation tasks and has the ability to perform zero-shot speech-to-text
translation for many languages for which input/target language combinations
were not seen in training. AudioPaLM also demonstrates features of audio
language models, such as transferring a voice across languages based on a short
spoken prompt. We release examples of our method at
https://google-research.github.io/seanet/audiopalm/examples