ChatPaper.aiChatPaper

Schaalanalyse van Interleaved Spraak-Tekst Taalmodellen

Scaling Analysis of Interleaved Speech-Text Language Models

April 3, 2025
Auteurs: Gallil Maimon, Michael Hassid, Amit Roth, Yossi Adi
cs.AI

Samenvatting

Bestaande schaalanalyses van Spraaktaalmodellen (SLMs) schetsen een somber beeld. Ze voorspellen dat SLMs aanzienlijk meer rekenkracht en data vereisen in vergelijking met tekst, wat sommigen doet twijfelen aan de haalbaarheid van het trainen van hoogwaardige SLMs. Moderne SLMs worden echter vaak geïnitialiseerd vanuit vooraf getrainde Teksttaalmodellen (TextLMs) met behulp van spraak-tekst-interleaving om kennisoverdracht mogelijk te maken. Dit roept de vraag op: Schaalden geïnterleefde SLMs efficiënter dan tekstloze SLMs? In dit paper beantwoorden we deze vraag met een volmondig ja! We voeren een schaalanalyse uit van geïnterleefde SLMs door tientallen modellen te trainen en de schaaltrends te analyseren. We zien dat SLMs onder deze opzet efficiënter schalen met rekenkracht. Daarnaast geven onze resultaten aan dat de schaaldynamiek aanzienlijk verschilt van die van tekstloze SLMs, wat suggereert dat men aanzienlijk meer van het rekenbudget zou moeten toewijzen aan het vergroten van het model in plaats van het aantal trainings-tokens. We onderzoeken ook de rol van synthetische data en TextLM-model families in het ontsluiten van dit potentieel. De resultaten suggereren dat ons opgeschaalde model vergelijkbare prestaties behaalt met toonaangevende modellen op semantische spraakmetrieken, terwijl het minder rekenkracht en data gebruikt dan andere benaderingen. We maken modellen, samples en data openbaar - https://pages.cs.huji.ac.il/adiyoss-lab/sims.
English
Existing Speech Language Model (SLM) scaling analysis paints a bleak picture. They predict that SLMs require much more compute and data compared to text, leading some to question the feasibility of training high-quality SLMs. However, modern SLMs are often initialised from pre-trained TextLMs using speech-text interleaving to allow knowledge transfer. This raises the question - Do interleaved SLMs scale more efficiently than textless-SLMs? In this paper we answer a resounding, yes! We conduct scaling analysis of interleaved SLMs by training several dozen and analysing the scaling trends. We see that under this setup SLMs scale more efficiently with compute. Additionally, our results indicate that the scaling-dynamics are significantly different than textless-SLMs, suggesting one should allocate notably more of the compute budget for increasing model size over training tokens. We also study the role of synthetic data and TextLM model families in unlocking this potential. Results suggest, that our scaled up model achieves comparable performance with leading models on speech semantic metrics while using less compute and data than other approaches. We open source models, samples, and data - https://pages.cs.huji.ac.il/adiyoss-lab/sims.

Summary

AI-Generated Summary

PDF282April 4, 2025