SpiRit-LM: Modelo de Lenguaje Intercalado Hablado y Escrito
SpiRit-LM: Interleaved Spoken and Written Language Model
February 8, 2024
Autores: Tu Anh Nguyen, Benjamin Muller, Bokai Yu, Marta R. Costa-jussa, Maha Elbayad, Sravya Popuri, Paul-Ambroise Duquenne, Robin Algayres, Ruslan Mavlyutov, Itai Gat, Gabriel Synnaeve, Juan Pino, Benoit Sagot, Emmanuel Dupoux
cs.AI
Resumen
Presentamos SPIRIT-LM, un modelo de lenguaje multimodal de base que combina libremente texto y habla. Nuestro modelo se basa en un modelo de lenguaje de texto preentrenado que extendemos a la modalidad de habla mediante un entrenamiento continuo con unidades de texto y habla. Las secuencias de habla y texto se concatenan como un único conjunto de tokens y se entrenan con un método de intercalación a nivel de palabra utilizando un pequeño corpus paralelo de habla-texto curado automáticamente. SPIRIT-LM está disponible en dos versiones: una versión BASE que utiliza unidades semánticas de habla y una versión EXPRESSIVE que modela la expresividad utilizando unidades de tono y estilo además de las unidades semánticas. Para ambas versiones, el texto se codifica con tokens BPE de subpalabras. El modelo resultante muestra tanto las habilidades semánticas de los modelos de texto como las habilidades expresivas de los modelos de habla. Además, demostramos que SPIRIT-LM es capaz de aprender nuevas tareas de manera few-shot a través de modalidades (es decir, ASR, TTS, Clasificación de Habla).
English
We introduce SPIRIT-LM, a foundation multimodal language model that freely
mixes text and speech. Our model is based on a pretrained text language model
that we extend to the speech modality by continuously training it on text and
speech units. Speech and text sequences are concatenated as a single set of
tokens, and trained with a word-level interleaving method using a small
automatically-curated speech-text parallel corpus. SPIRIT-LM comes in two
versions: a BASE version that uses speech semantic units and an EXPRESSIVE
version that models expressivity using pitch and style units in addition to the
semantic units. For both versions, the text is encoded with subword BPE tokens.
The resulting model displays both the semantic abilities of text models and the
expressive abilities of speech models. Additionally, we demonstrate that
SPIRIT-LM is able to learn new tasks in a few-shot fashion across modalities
(i.e. ASR, TTS, Speech Classification).