Skalierungsanalyse von verschachtelten Sprach-Text-Sprachmodellen
Scaling Analysis of Interleaved Speech-Text Language Models
April 3, 2025
Autoren: Gallil Maimon, Michael Hassid, Amit Roth, Yossi Adi
cs.AI
Zusammenfassung
Bestehende Skalierungsanalysen von Sprachmodellen (Speech Language Models, SLMs) zeichnen ein düsteres Bild. Sie prognostizieren, dass SLMs im Vergleich zu Textmodellen deutlich mehr Rechenleistung und Daten benötigen, was einige dazu veranlasst, die Machbarkeit des Trainings hochwertiger SLMs in Frage zu stellen. Moderne SLMs werden jedoch häufig von vortrainierten Textmodellen (TextLMs) initialisiert, wobei eine Verschachtelung von Sprache und Text verwendet wird, um Wissenstransfer zu ermöglichen. Dies wirft die Frage auf: Skalieren verschachtelte SLMs effizienter als textlose SLMs? In diesem Papier beantworten wir diese Frage mit einem klaren Ja! Wir führen eine Skalierungsanalyse von verschachtelten SLMs durch, indem wir mehrere Dutzend Modelle trainieren und die Skalierungstrends analysieren. Wir beobachten, dass SLMs in diesem Setup effizienter mit der Rechenleistung skalieren. Darüber hinaus deuten unsere Ergebnisse darauf hin, dass die Skalierungsdynamiken deutlich anders sind als bei textlosen SLMs, was darauf hindeutet, dass ein erheblich größerer Teil des Rechenbudgets für die Vergrößerung der Modellgröße anstelle der Trainings-Tokens verwendet werden sollte. Wir untersuchen auch die Rolle von synthetischen Daten und TextLM-Modellfamilien bei der Erschließung dieses Potenzials. Die Ergebnisse legen nahe, dass unser hochskaliertes Modell eine vergleichbare Leistung mit führenden Modellen bei sprachlichen semantischen Metriken erzielt, während es weniger Rechenleistung und Daten als andere Ansätze benötigt. Wir stellen Modelle, Beispiele und Daten als Open Source zur Verfügung – https://pages.cs.huji.ac.il/adiyoss-lab/sims.
English
Existing Speech Language Model (SLM) scaling analysis paints a bleak picture.
They predict that SLMs require much more compute and data compared to text,
leading some to question the feasibility of training high-quality SLMs.
However, modern SLMs are often initialised from pre-trained TextLMs using
speech-text interleaving to allow knowledge transfer. This raises the question
- Do interleaved SLMs scale more efficiently than textless-SLMs? In this paper
we answer a resounding, yes! We conduct scaling analysis of interleaved SLMs by
training several dozen and analysing the scaling trends. We see that under this
setup SLMs scale more efficiently with compute. Additionally, our results
indicate that the scaling-dynamics are significantly different than
textless-SLMs, suggesting one should allocate notably more of the compute
budget for increasing model size over training tokens. We also study the role
of synthetic data and TextLM model families in unlocking this potential.
Results suggest, that our scaled up model achieves comparable performance with
leading models on speech semantic metrics while using less compute and data
than other approaches. We open source models, samples, and data -
https://pages.cs.huji.ac.il/adiyoss-lab/sims.Summary
AI-Generated Summary