SpiRit-LM: Geïntegreerd Gesproken en Geschreven Taalmodel
SpiRit-LM: Interleaved Spoken and Written Language Model
February 8, 2024
Auteurs: Tu Anh Nguyen, Benjamin Muller, Bokai Yu, Marta R. Costa-jussa, Maha Elbayad, Sravya Popuri, Paul-Ambroise Duquenne, Robin Algayres, Ruslan Mavlyutov, Itai Gat, Gabriel Synnaeve, Juan Pino, Benoit Sagot, Emmanuel Dupoux
cs.AI
Samenvatting
We introduceren SPIRIT-LM, een multimodaal basis-taalmodel dat vrijelijk tekst en spraak combineert. Ons model is gebaseerd op een vooraf getraind teksttaalmodel dat we uitbreiden naar de spraakmodaliteit door het continu te trainen op tekst- en spraakeenheden. Spraak- en tekstsequenties worden samengevoegd als een enkele set tokens en getraind met een woordniveau interleaving-methode met behulp van een klein automatisch samengesteld spraak-tekst parallel corpus. SPIRIT-LM is beschikbaar in twee versies: een BASIS-versie die semantische spraakeenheden gebruikt en een EXPRESSIEVE versie die expressiviteit modelleert met behulp van toonhoogte- en stijleenheden naast de semantische eenheden. Voor beide versies wordt de tekst gecodeerd met subwoord BPE-tokens. Het resulterende model vertoont zowel de semantische vaardigheden van tekstmodellen als de expressieve vaardigheden van spraakmodellen. Daarnaast tonen we aan dat SPIRIT-LM in staat is om nieuwe taken te leren in een few-shot manier over modaliteiten heen (d.w.z. ASR, TTS, Spraakclassificatie).
English
We introduce SPIRIT-LM, a foundation multimodal language model that freely
mixes text and speech. Our model is based on a pretrained text language model
that we extend to the speech modality by continuously training it on text and
speech units. Speech and text sequences are concatenated as a single set of
tokens, and trained with a word-level interleaving method using a small
automatically-curated speech-text parallel corpus. SPIRIT-LM comes in two
versions: a BASE version that uses speech semantic units and an EXPRESSIVE
version that models expressivity using pitch and style units in addition to the
semantic units. For both versions, the text is encoded with subword BPE tokens.
The resulting model displays both the semantic abilities of text models and the
expressive abilities of speech models. Additionally, we demonstrate that
SPIRIT-LM is able to learn new tasks in a few-shot fashion across modalities
(i.e. ASR, TTS, Speech Classification).