AudioPaLM: Um Modelo de Linguagem de Grande Porte que Pode Falar e Ouvir

Resumo

Apresentamos o AudioPaLM, um grande modelo de linguagem para compreensão e geração de fala. O AudioPaLM integra modelos de linguagem baseados em texto e em fala, PaLM-2 [Anil et al., 2023] e AudioLM [Borsos et al., 2022], em uma arquitetura multimodal unificada que pode processar e gerar texto e fala, com aplicações incluindo reconhecimento de fala e tradução de fala para fala. O AudioPaLM herda a capacidade de preservar informações paralinguísticas, como identidade do falante e entonação, do AudioLM, e o conhecimento linguístico presente apenas em grandes modelos de linguagem baseados em texto, como o PaLM-2. Demonstramos que inicializar o AudioPaLM com os pesos de um grande modelo de linguagem apenas de texto melhora o processamento de fala, aproveitando com sucesso a maior quantidade de dados de treinamento de texto usados no pré-treinamento para auxiliar nas tarefas de fala. O modelo resultante supera significativamente os sistemas existentes para tarefas de tradução de fala e possui a capacidade de realizar tradução de fala para texto em modo zero-shot para muitos idiomas cujas combinações de idioma de entrada/destino não foram vistas durante o treinamento. O AudioPaLM também demonstra características de modelos de linguagem de áudio, como transferir uma voz entre idiomas com base em um prompt falado curto. Disponibilizamos exemplos do nosso método em https://google-research.github.io/seanet/audiopalm/examples.

English

We introduce AudioPaLM, a large language model for speech understanding and generation. AudioPaLM fuses text-based and speech-based language models, PaLM-2 [Anil et al., 2023] and AudioLM [Borsos et al., 2022], into a unified multimodal architecture that can process and generate text and speech with applications including speech recognition and speech-to-speech translation. AudioPaLM inherits the capability to preserve paralinguistic information such as speaker identity and intonation from AudioLM and the linguistic knowledge present only in text large language models such as PaLM-2. We demonstrate that initializing AudioPaLM with the weights of a text-only large language model improves speech processing, successfully leveraging the larger quantity of text training data used in pretraining to assist with the speech tasks. The resulting model significantly outperforms existing systems for speech translation tasks and has the ability to perform zero-shot speech-to-text translation for many languages for which input/target language combinations were not seen in training. AudioPaLM also demonstrates features of audio language models, such as transferring a voice across languages based on a short spoken prompt. We release examples of our method at https://google-research.github.io/seanet/audiopalm/examples

AudioPaLM: Um Modelo de Linguagem de Grande Porte que Pode Falar e Ouvir

AudioPaLM: A Large Language Model That Can Speak and Listen

Resumo

Support