AudioPaLM: 말하고 들을 수 있는 대규모 언어 모델
AudioPaLM: A Large Language Model That Can Speak and Listen
June 22, 2023
저자: Paul K. Rubenstein, Chulayuth Asawaroengchai, Duc Dung Nguyen, Ankur Bapna, Zalán Borsos, Félix de Chaumont Quitry, Peter Chen, Dalia El Badawy, Wei Han, Eugene Kharitonov, Hannah Muckenhirn, Dirk Padfield, James Qin, Danny Rozenberg, Tara Sainath, Johan Schalkwyk, Matt Sharifi, Michelle Tadmor Ramanovich, Marco Tagliasacchi, Alexandru Tudor, Mihajlo Velimirović, Damien Vincent, Jiahui Yu, Yongqiang Wang, Vicky Zayats, Neil Zeghidour, Yu Zhang, Zhishuai Zhang, Lukas Zilka, Christian Frank
cs.AI
초록
우리는 음성 이해와 생성을 위한 대규모 언어 모델인 AudioPaLM을 소개합니다. AudioPaLM은 텍스트 기반 언어 모델인 PaLM-2 [Anil et al., 2023]와 음성 기반 언어 모델인 AudioLM [Borsos et al., 2022]를 통합한 멀티모달 아키텍처로, 텍스트와 음성을 처리하고 생성할 수 있으며, 음성 인식 및 음성 간 번역 등의 응용이 가능합니다. AudioPaLM은 AudioLM에서 화자 식별 및 억양과 같은 파라링구스틱 정보를 보존하는 능력과 PaLM-2와 같은 텍스트 대규모 언어 모델에만 존재하는 언어적 지식을 모두 계승합니다. 우리는 텍스트 전용 대규모 언어 모델의 가중치로 AudioPaLM을 초기화함으로써 음성 처리 성능을 향상시킬 수 있음을 보여주며, 사전 학습에 사용된 더 많은 양의 텍스트 데이터가 음성 작업에 도움을 줄 수 있음을 입증합니다. 결과적으로 이 모델은 기존 음성 번역 시스템을 크게 능가하며, 훈련 중에 입력/대상 언어 조합이 보이지 않은 많은 언어에 대해 제로샷 음성-텍스트 번역을 수행할 수 있는 능력을 보여줍니다. 또한 AudioPaLM은 짧은 음성 프롬프트를 기반으로 언어 간 음성을 전환하는 등 오디오 언어 모델의 특징을 보여줍니다. 우리는 이 방법의 예시를 https://google-research.github.io/seanet/audiopalm/examples 에 공개합니다.
English
We introduce AudioPaLM, a large language model for speech understanding and
generation. AudioPaLM fuses text-based and speech-based language models, PaLM-2
[Anil et al., 2023] and AudioLM [Borsos et al., 2022], into a unified
multimodal architecture that can process and generate text and speech with
applications including speech recognition and speech-to-speech translation.
AudioPaLM inherits the capability to preserve paralinguistic information such
as speaker identity and intonation from AudioLM and the linguistic knowledge
present only in text large language models such as PaLM-2. We demonstrate that
initializing AudioPaLM with the weights of a text-only large language model
improves speech processing, successfully leveraging the larger quantity of text
training data used in pretraining to assist with the speech tasks. The
resulting model significantly outperforms existing systems for speech
translation tasks and has the ability to perform zero-shot speech-to-text
translation for many languages for which input/target language combinations
were not seen in training. AudioPaLM also demonstrates features of audio
language models, such as transferring a voice across languages based on a short
spoken prompt. We release examples of our method at
https://google-research.github.io/seanet/audiopalm/examples