Soundwave: LLMにおける音声-テキストアラインメントのための「少ないほど良い」アプローチSoundwave: Less is More for Speech-Text Alignment in LLMs
既存のエンドツーエンド音声大規模言語モデル(LLM)は、通常、大規模な注釈付きデータに依存して訓練されていますが、データ効率の良い訓練については深く議論されていません。我々は、音声とテキストの間にある2つの根本的な問題、すなわち表現空間のギャップとシーケンス長の不一致に焦点を当てます。これらの問題を解決するために、効率的な訓練戦略と新しいアーキテクチャを活用したSoundwaveを提案します。結果は、Soundwaveが、訓練データのわずか50分の1を使用して、音声翻訳とAIR-Bench音声タスクにおいて先進的なQwen2-Audioを凌駕することを示しています。さらに分析により、Soundwaveが会話中にその知性を保持していることが明らかになりました。本プロジェクトはhttps://github.com/FreedomIntelligence/Soundwaveで公開されています。