インタリーブ音声-テキスト言語モデルのスケーリング分析
Scaling Analysis of Interleaved Speech-Text Language Models
April 3, 2025
著者: Gallil Maimon, Michael Hassid, Amit Roth, Yossi Adi
cs.AI
要旨
既存の音声言語モデル(SLM)のスケーリング分析は、暗い見通しを示しています。それによると、SLMはテキストと比べてはるかに多くの計算リソースとデータを必要とし、高品質なSLMの訓練の実現可能性に疑問を投げかけています。しかし、現代のSLMは、事前に訓練されたテキスト言語モデル(TextLM)を初期化し、音声とテキストを交互に組み合わせることで知識の転移を可能にすることが多いです。これにより、次の疑問が生じます - 交互に組み合わせたSLMは、テキストなしのSLMよりも効率的にスケールするのでしょうか?本論文では、その答えは「はい」であると断言します!私たちは、交互に組み合わせたSLMのスケーリング分析を行い、数十のモデルを訓練し、スケーリングの傾向を分析しました。この設定では、SLMは計算リソースに対してより効率的にスケールすることがわかりました。さらに、私たちの結果は、スケーリングのダイナミクスがテキストなしのSLMとは大きく異なることを示しており、計算予算の多くをモデルサイズの増大に割り当てるべきであることを示唆しています。また、合成データとTextLMモデルファミリーがこの潜在能力を引き出す役割についても研究しました。結果は、私たちのスケールアップしたモデルが、他のアプローチよりも少ない計算リソースとデータを使用しながら、音声の意味的指標において主要なモデルと同等の性能を達成することを示しています。私たちは、モデル、サンプル、データをオープンソースとして公開しています - https://pages.cs.huji.ac.il/adiyoss-lab/sims。
English
Existing Speech Language Model (SLM) scaling analysis paints a bleak picture.
They predict that SLMs require much more compute and data compared to text,
leading some to question the feasibility of training high-quality SLMs.
However, modern SLMs are often initialised from pre-trained TextLMs using
speech-text interleaving to allow knowledge transfer. This raises the question
- Do interleaved SLMs scale more efficiently than textless-SLMs? In this paper
we answer a resounding, yes! We conduct scaling analysis of interleaved SLMs by
training several dozen and analysing the scaling trends. We see that under this
setup SLMs scale more efficiently with compute. Additionally, our results
indicate that the scaling-dynamics are significantly different than
textless-SLMs, suggesting one should allocate notably more of the compute
budget for increasing model size over training tokens. We also study the role
of synthetic data and TextLM model families in unlocking this potential.
Results suggest, that our scaled up model achieves comparable performance with
leading models on speech semantic metrics while using less compute and data
than other approaches. We open source models, samples, and data -
https://pages.cs.huji.ac.il/adiyoss-lab/sims.Summary
AI-Generated Summary