ChatPaper.aiChatPaper

Analyse de mise à l'échelle des modèles de langage intercalés parole-texte

Scaling Analysis of Interleaved Speech-Text Language Models

April 3, 2025
Auteurs: Gallil Maimon, Michael Hassid, Amit Roth, Yossi Adi
cs.AI

Résumé

L'analyse existante sur la mise à l'échelle des modèles de langage de parole (SLM) dresse un tableau sombre. Elle prédit que les SLM nécessitent beaucoup plus de calcul et de données par rapport aux modèles de texte, ce qui amène certains à remettre en question la faisabilité de l'entraînement de SLM de haute qualité. Cependant, les SLM modernes sont souvent initialisés à partir de modèles de langage de texte pré-entraînés (TextLM) en utilisant un entrelacement parole-texte pour permettre un transfert de connaissances. Cela soulève la question : les SLM entrelacés se mettent-ils à l'échelle plus efficacement que les SLM sans texte ? Dans cet article, nous répondons par un retentissant oui ! Nous menons une analyse de mise à l'échelle des SLM entrelacés en entraînant plusieurs dizaines de modèles et en examinant les tendances de mise à l'échelle. Nous constatons que, dans ce cadre, les SLM se mettent à l'échelle plus efficacement avec les ressources de calcul. De plus, nos résultats indiquent que les dynamiques de mise à l'échelle sont significativement différentes de celles des SLM sans texte, suggérant qu'il faudrait allouer nettement plus de budget de calcul pour augmenter la taille du modèle plutôt que le nombre de tokens d'entraînement. Nous étudions également le rôle des données synthétiques et des familles de modèles TextLM dans le déblocage de ce potentiel. Les résultats suggèrent que notre modèle mis à l'échelle atteint des performances comparables aux modèles leaders sur les métriques sémantiques de la parole, tout en utilisant moins de calcul et de données que d'autres approches. Nous rendons publics les modèles, les échantillons et les données - https://pages.cs.huji.ac.il/adiyoss-lab/sims.
English
Existing Speech Language Model (SLM) scaling analysis paints a bleak picture. They predict that SLMs require much more compute and data compared to text, leading some to question the feasibility of training high-quality SLMs. However, modern SLMs are often initialised from pre-trained TextLMs using speech-text interleaving to allow knowledge transfer. This raises the question - Do interleaved SLMs scale more efficiently than textless-SLMs? In this paper we answer a resounding, yes! We conduct scaling analysis of interleaved SLMs by training several dozen and analysing the scaling trends. We see that under this setup SLMs scale more efficiently with compute. Additionally, our results indicate that the scaling-dynamics are significantly different than textless-SLMs, suggesting one should allocate notably more of the compute budget for increasing model size over training tokens. We also study the role of synthetic data and TextLM model families in unlocking this potential. Results suggest, that our scaled up model achieves comparable performance with leading models on speech semantic metrics while using less compute and data than other approaches. We open source models, samples, and data - https://pages.cs.huji.ac.il/adiyoss-lab/sims.

Summary

AI-Generated Summary

PDF282April 4, 2025