ChatPaper.aiChatPaper

AudioPaLM: Un Modelo de Lenguaje de Gran Escala que Puede Hablar y Escuchar

AudioPaLM: A Large Language Model That Can Speak and Listen

June 22, 2023
Autores: Paul K. Rubenstein, Chulayuth Asawaroengchai, Duc Dung Nguyen, Ankur Bapna, Zalán Borsos, Félix de Chaumont Quitry, Peter Chen, Dalia El Badawy, Wei Han, Eugene Kharitonov, Hannah Muckenhirn, Dirk Padfield, James Qin, Danny Rozenberg, Tara Sainath, Johan Schalkwyk, Matt Sharifi, Michelle Tadmor Ramanovich, Marco Tagliasacchi, Alexandru Tudor, Mihajlo Velimirović, Damien Vincent, Jiahui Yu, Yongqiang Wang, Vicky Zayats, Neil Zeghidour, Yu Zhang, Zhishuai Zhang, Lukas Zilka, Christian Frank
cs.AI

Resumen

Presentamos AudioPaLM, un modelo de lenguaje de gran escala para la comprensión y generación de habla. AudioPaLM fusiona modelos de lenguaje basados en texto y en habla, PaLM-2 [Anil et al., 2023] y AudioLM [Borsos et al., 2022], en una arquitectura multimodal unificada que puede procesar y generar texto y habla con aplicaciones que incluyen reconocimiento de voz y traducción de habla a habla. AudioPaLM hereda la capacidad de preservar información paralingüística, como la identidad del hablante y la entonación, de AudioLM, y el conocimiento lingüístico presente únicamente en modelos de lenguaje de gran escala basados en texto, como PaLM-2. Demostramos que inicializar AudioPaLM con los pesos de un modelo de lenguaje de gran escala basado únicamente en texto mejora el procesamiento de habla, aprovechando con éxito la mayor cantidad de datos de entrenamiento de texto utilizados en el preentrenamiento para asistir en las tareas de habla. El modelo resultante supera significativamente a los sistemas existentes en tareas de traducción de habla y tiene la capacidad de realizar traducción de habla a texto en modo zero-shot para muchos idiomas cuyas combinaciones de idioma de entrada/destino no se vieron durante el entrenamiento. AudioPaLM también demuestra características de los modelos de lenguaje de audio, como transferir una voz entre idiomas basándose en un breve estímulo de habla. Publicamos ejemplos de nuestro método en https://google-research.github.io/seanet/audiopalm/examples.
English
We introduce AudioPaLM, a large language model for speech understanding and generation. AudioPaLM fuses text-based and speech-based language models, PaLM-2 [Anil et al., 2023] and AudioLM [Borsos et al., 2022], into a unified multimodal architecture that can process and generate text and speech with applications including speech recognition and speech-to-speech translation. AudioPaLM inherits the capability to preserve paralinguistic information such as speaker identity and intonation from AudioLM and the linguistic knowledge present only in text large language models such as PaLM-2. We demonstrate that initializing AudioPaLM with the weights of a text-only large language model improves speech processing, successfully leveraging the larger quantity of text training data used in pretraining to assist with the speech tasks. The resulting model significantly outperforms existing systems for speech translation tasks and has the ability to perform zero-shot speech-to-text translation for many languages for which input/target language combinations were not seen in training. AudioPaLM also demonstrates features of audio language models, such as transferring a voice across languages based on a short spoken prompt. We release examples of our method at https://google-research.github.io/seanet/audiopalm/examples
PDF546December 15, 2024