SpiRit-LM: 구어와 문어가 교차된 언어 모델
SpiRit-LM: Interleaved Spoken and Written Language Model
February 8, 2024
저자: Tu Anh Nguyen, Benjamin Muller, Bokai Yu, Marta R. Costa-jussa, Maha Elbayad, Sravya Popuri, Paul-Ambroise Duquenne, Robin Algayres, Ruslan Mavlyutov, Itai Gat, Gabriel Synnaeve, Juan Pino, Benoit Sagot, Emmanuel Dupoux
cs.AI
초록
우리는 텍스트와 음성을 자유롭게 혼합할 수 있는 기반 멀티모달 언어 모델인 SPIRIT-LM을 소개한다. 우리의 모델은 사전 훈련된 텍스트 언어 모델을 기반으로 하며, 텍스트와 음성 유닛에 대한 지속적인 학습을 통해 음성 모달리티로 확장했다. 음성과 텍스트 시퀀스는 단일 토큰 집합으로 연결되며, 자동으로 정제된 소규모 음성-텍스트 병렬 코퍼스를 사용한 단어 수준의 인터리빙 방법으로 훈련되었다. SPIRIT-LM은 두 가지 버전으로 제공된다: 음성 의미 유닛을 사용하는 BASE 버전과, 의미 유닛 외에도 피치와 스타일 유닛을 사용하여 표현성을 모델링하는 EXPRESSIVE 버전이다. 두 버전 모두 텍스트는 서브워드 BPE 토큰으로 인코딩된다. 결과적으로 이 모델은 텍스트 모델의 의미 능력과 음성 모델의 표현 능력을 모두 보여준다. 또한, SPIRIT-LM이 다양한 모달리티(예: ASR, TTS, 음성 분류)에서 소수 샷 방식으로 새로운 작업을 학습할 수 있음을 입증한다.
English
We introduce SPIRIT-LM, a foundation multimodal language model that freely
mixes text and speech. Our model is based on a pretrained text language model
that we extend to the speech modality by continuously training it on text and
speech units. Speech and text sequences are concatenated as a single set of
tokens, and trained with a word-level interleaving method using a small
automatically-curated speech-text parallel corpus. SPIRIT-LM comes in two
versions: a BASE version that uses speech semantic units and an EXPRESSIVE
version that models expressivity using pitch and style units in addition to the
semantic units. For both versions, the text is encoded with subword BPE tokens.
The resulting model displays both the semantic abilities of text models and the
expressive abilities of speech models. Additionally, we demonstrate that
SPIRIT-LM is able to learn new tasks in a few-shot fashion across modalities
(i.e. ASR, TTS, Speech Classification).