Textuell vortrainierte Sprachmodelle für Sprache
Textually Pretrained Speech Language Models
May 22, 2023
Autoren: Michael Hassid, Tal Remez, Tu Anh Nguyen, Itai Gat, Alexis Conneau, Felix Kreuk, Jade Copet, Alexandre Defossez, Gabriel Synnaeve, Emmanuel Dupoux, Roy Schwartz, Yossi Adi
cs.AI
Zusammenfassung
Sprachmodelle für akustische Daten (SpeechLMs) verarbeiten und erzeugen ausschließlich akustische Daten, ohne textuelle Überwachung. In dieser Arbeit schlagen wir TWIST vor, eine Methode zum Trainieren von SpeechLMs unter Verwendung eines Warm-Starts von vortrainierten textuellen Sprachmodellen. Wir zeigen sowohl durch automatische als auch durch menschliche Bewertungen, dass TWIST ein kalt gestartetes SpeechLM in allen Bereichen übertrifft. Wir analysieren empirisch den Einfluss verschiedener Modellentwurfsentscheidungen wie des Sprach-Tokenizers, des vortrainierten textuellen Modells und der Datensatzgröße. Wir stellen fest, dass sowohl die Modell- als auch die Datensatzskalierung eine wichtige Rolle bei der Konstruktion besser performender SpeechLMs spielen. Basierend auf unseren Beobachtungen präsentieren wir das größte (unseres Wissens nach) SpeechLM sowohl in Bezug auf die Anzahl der Parameter als auch auf die Trainingsdaten. Zusätzlich führen wir zwei gesprochene Versionen des textuellen StoryCloze-Benchmarks ein, um die Modellbewertung weiter zu verbessern und zukünftige Forschung in diesem Bereich voranzutreiben. Sprachbeispiele finden Sie auf unserer Website: https://pages.cs.huji.ac.il/adiyoss-lab/twist/.
English
Speech language models (SpeechLMs) process and generate acoustic data only,
without textual supervision. In this work, we propose TWIST, a method for
training SpeechLMs using a warm-start from a pretrained textual language
models. We show using both automatic and human evaluations that TWIST
outperforms a cold-start SpeechLM across the board. We empirically analyze the
effect of different model design choices such as the speech tokenizer, the
pretrained textual model, and the dataset size. We find that model and dataset
scale both play an important role in constructing better-performing SpeechLMs.
Based on our observations, we present the largest (to the best of our
knowledge) SpeechLM both in terms of number of parameters and training data. We
additionally introduce two spoken versions of the StoryCloze textual benchmark
to further improve model evaluation and advance future research in the field.
Speech samples can be found on our website:
https://pages.cs.huji.ac.il/adiyoss-lab/twist/ .