Modelos de Lenguaje de Habla Preentrenados Textualmente
Textually Pretrained Speech Language Models
May 22, 2023
Autores: Michael Hassid, Tal Remez, Tu Anh Nguyen, Itai Gat, Alexis Conneau, Felix Kreuk, Jade Copet, Alexandre Defossez, Gabriel Synnaeve, Emmanuel Dupoux, Roy Schwartz, Yossi Adi
cs.AI
Resumen
Los modelos de lenguaje de habla (SpeechLMs) procesan y generan únicamente datos acústicos, sin supervisión textual. En este trabajo, proponemos TWIST, un método para entrenar SpeechLMs utilizando un inicio cálido a partir de modelos de lenguaje textual preentrenados. Demostramos, mediante evaluaciones automáticas y humanas, que TWIST supera a un SpeechLM de inicio frío en todos los aspectos. Analizamos empíricamente el efecto de diferentes decisiones de diseño del modelo, como el tokenizador de habla, el modelo textual preentrenado y el tamaño del conjunto de datos. Descubrimos que tanto la escala del modelo como la del conjunto de datos desempeñan un papel importante en la construcción de SpeechLMs con mejor rendimiento. Basándonos en nuestras observaciones, presentamos el SpeechLM más grande (hasta donde sabemos) tanto en términos de número de parámetros como de datos de entrenamiento. Además, introducimos dos versiones habladas del benchmark textual StoryCloze para mejorar la evaluación del modelo y avanzar en futuras investigaciones en este campo. Las muestras de habla pueden encontrarse en nuestro sitio web: https://pages.cs.huji.ac.il/adiyoss-lab/twist/.
English
Speech language models (SpeechLMs) process and generate acoustic data only,
without textual supervision. In this work, we propose TWIST, a method for
training SpeechLMs using a warm-start from a pretrained textual language
models. We show using both automatic and human evaluations that TWIST
outperforms a cold-start SpeechLM across the board. We empirically analyze the
effect of different model design choices such as the speech tokenizer, the
pretrained textual model, and the dataset size. We find that model and dataset
scale both play an important role in constructing better-performing SpeechLMs.
Based on our observations, we present the largest (to the best of our
knowledge) SpeechLM both in terms of number of parameters and training data. We
additionally introduce two spoken versions of the StoryCloze textual benchmark
to further improve model evaluation and advance future research in the field.
Speech samples can be found on our website:
https://pages.cs.huji.ac.il/adiyoss-lab/twist/ .