AudioPaLM: Крупная языковая модель, способная говорить и слушать

Аннотация

Мы представляем AudioPaLM, крупную языковую модель для понимания и генерации речи. AudioPaLM объединяет текстовую и речевую языковые модели, PaLM-2 [Anil et al., 2023] и AudioLM [Borsos et al., 2022], в единую мультимодальную архитектуру, способную обрабатывать и генерировать текст и речь с такими приложениями, как распознавание речи и перевод речи в речь. AudioPaLM наследует способность сохранять паралингвистическую информацию, такую как идентификация говорящего и интонация, от AudioLM, а также лингвистические знания, присутствующие только в текстовых крупных языковых моделях, таких как PaLM-2. Мы демонстрируем, что инициализация AudioPaLM весами текстовой крупной языковой модели улучшает обработку речи, успешно используя большее количество текстовых данных, использованных при предварительном обучении, для помощи в речевых задачах. Полученная модель значительно превосходит существующие системы в задачах перевода речи и обладает способностью выполнять перевод речи в текст с нулевым обучением для многих языков, комбинации входного/целевого языков для которых не встречались в обучении. AudioPaLM также демонстрирует особенности аудио языковых моделей, такие как перенос голоса между языками на основе короткого устного запроса. Мы публикуем примеры нашего метода на сайте https://google-research.github.io/seanet/audiopalm/examples.

English

We introduce AudioPaLM, a large language model for speech understanding and generation. AudioPaLM fuses text-based and speech-based language models, PaLM-2 [Anil et al., 2023] and AudioLM [Borsos et al., 2022], into a unified multimodal architecture that can process and generate text and speech with applications including speech recognition and speech-to-speech translation. AudioPaLM inherits the capability to preserve paralinguistic information such as speaker identity and intonation from AudioLM and the linguistic knowledge present only in text large language models such as PaLM-2. We demonstrate that initializing AudioPaLM with the weights of a text-only large language model improves speech processing, successfully leveraging the larger quantity of text training data used in pretraining to assist with the speech tasks. The resulting model significantly outperforms existing systems for speech translation tasks and has the ability to perform zero-shot speech-to-text translation for many languages for which input/target language combinations were not seen in training. AudioPaLM also demonstrates features of audio language models, such as transferring a voice across languages based on a short spoken prompt. We release examples of our method at https://google-research.github.io/seanet/audiopalm/examples

AudioPaLM: Крупная языковая модель, способная говорить и слушать

AudioPaLM: A Large Language Model That Can Speak and Listen

Аннотация

Support