ChatPaper.aiChatPaper

SpiRit-LM: Modelo de Linguagem Intercalado para Fala e Escrita

SpiRit-LM: Interleaved Spoken and Written Language Model

February 8, 2024
Autores: Tu Anh Nguyen, Benjamin Muller, Bokai Yu, Marta R. Costa-jussa, Maha Elbayad, Sravya Popuri, Paul-Ambroise Duquenne, Robin Algayres, Ruslan Mavlyutov, Itai Gat, Gabriel Synnaeve, Juan Pino, Benoit Sagot, Emmanuel Dupoux
cs.AI

Resumo

Apresentamos o SPIRIT-LM, um modelo de linguagem multimodal de base que combina livremente texto e fala. Nosso modelo é baseado em um modelo de linguagem de texto pré-treinado que estendemos para a modalidade de fala, treinando-o continuamente com unidades de texto e fala. Sequências de fala e texto são concatenadas como um único conjunto de tokens e treinadas com um método de intercalação em nível de palavra, utilizando um pequeno corpus paralelo de fala-texto automaticamente curado. O SPIRIT-LM vem em duas versões: uma versão BASE que utiliza unidades semânticas de fala e uma versão EXPRESSIVA que modela a expressividade usando unidades de tom e estilo, além das unidades semânticas. Para ambas as versões, o texto é codificado com tokens BPE de subpalavras. O modelo resultante exibe tanto as habilidades semânticas dos modelos de texto quanto as habilidades expressivas dos modelos de fala. Além disso, demonstramos que o SPIRIT-LM é capaz de aprender novas tarefas de forma few-shot entre modalidades (ou seja, ASR, TTS, Classificação de Fala).
English
We introduce SPIRIT-LM, a foundation multimodal language model that freely mixes text and speech. Our model is based on a pretrained text language model that we extend to the speech modality by continuously training it on text and speech units. Speech and text sequences are concatenated as a single set of tokens, and trained with a word-level interleaving method using a small automatically-curated speech-text parallel corpus. SPIRIT-LM comes in two versions: a BASE version that uses speech semantic units and an EXPRESSIVE version that models expressivity using pitch and style units in addition to the semantic units. For both versions, the text is encoded with subword BPE tokens. The resulting model displays both the semantic abilities of text models and the expressive abilities of speech models. Additionally, we demonstrate that SPIRIT-LM is able to learn new tasks in a few-shot fashion across modalities (i.e. ASR, TTS, Speech Classification).
PDF152December 15, 2024