ChatPaper.aiChatPaper

Skalierungsanalyse von verschachtelten Sprach-Text-Sprachmodellen

Scaling Analysis of Interleaved Speech-Text Language Models

April 3, 2025
Autoren: Gallil Maimon, Michael Hassid, Amit Roth, Yossi Adi
cs.AI

Zusammenfassung

Bestehende Skalierungsanalysen von Sprachmodellen (Speech Language Models, SLMs) zeichnen ein düsteres Bild. Sie prognostizieren, dass SLMs im Vergleich zu Textmodellen deutlich mehr Rechenleistung und Daten benötigen, was einige dazu veranlasst, die Machbarkeit des Trainings hochwertiger SLMs in Frage zu stellen. Moderne SLMs werden jedoch häufig von vortrainierten Textmodellen (TextLMs) initialisiert, wobei eine Verschachtelung von Sprache und Text verwendet wird, um Wissenstransfer zu ermöglichen. Dies wirft die Frage auf: Skalieren verschachtelte SLMs effizienter als textlose SLMs? In diesem Papier beantworten wir diese Frage mit einem klaren Ja! Wir führen eine Skalierungsanalyse von verschachtelten SLMs durch, indem wir mehrere Dutzend Modelle trainieren und die Skalierungstrends analysieren. Wir beobachten, dass SLMs in diesem Setup effizienter mit der Rechenleistung skalieren. Darüber hinaus deuten unsere Ergebnisse darauf hin, dass die Skalierungsdynamiken deutlich anders sind als bei textlosen SLMs, was darauf hindeutet, dass ein erheblich größerer Teil des Rechenbudgets für die Vergrößerung der Modellgröße anstelle der Trainings-Tokens verwendet werden sollte. Wir untersuchen auch die Rolle von synthetischen Daten und TextLM-Modellfamilien bei der Erschließung dieses Potenzials. Die Ergebnisse legen nahe, dass unser hochskaliertes Modell eine vergleichbare Leistung mit führenden Modellen bei sprachlichen semantischen Metriken erzielt, während es weniger Rechenleistung und Daten als andere Ansätze benötigt. Wir stellen Modelle, Beispiele und Daten als Open Source zur Verfügung – https://pages.cs.huji.ac.il/adiyoss-lab/sims.
English
Existing Speech Language Model (SLM) scaling analysis paints a bleak picture. They predict that SLMs require much more compute and data compared to text, leading some to question the feasibility of training high-quality SLMs. However, modern SLMs are often initialised from pre-trained TextLMs using speech-text interleaving to allow knowledge transfer. This raises the question - Do interleaved SLMs scale more efficiently than textless-SLMs? In this paper we answer a resounding, yes! We conduct scaling analysis of interleaved SLMs by training several dozen and analysing the scaling trends. We see that under this setup SLMs scale more efficiently with compute. Additionally, our results indicate that the scaling-dynamics are significantly different than textless-SLMs, suggesting one should allocate notably more of the compute budget for increasing model size over training tokens. We also study the role of synthetic data and TextLM model families in unlocking this potential. Results suggest, that our scaled up model achieves comparable performance with leading models on speech semantic metrics while using less compute and data than other approaches. We open source models, samples, and data - https://pages.cs.huji.ac.il/adiyoss-lab/sims.

Summary

AI-Generated Summary

PDF282April 4, 2025