EchoX: 音声対音声LLMのためのエコートレーニングによる音響-意味ギャップの軽減に向けて
EchoX: Towards Mitigating Acoustic-Semantic Gap via Echo Training for Speech-to-Speech LLMs
September 11, 2025
著者: Yuhao Zhang, Yuhao Du, Zhanchen Dai, Xiangnan Ma, Kaiqi Kou, Benyou Wang, Haizhou Li
cs.AI
要旨
音声対音声大規模言語モデル(SLLM)が注目を集めつつある。テキストベースの大規模言語モデル(LLM)から派生したSLLMは、知識と推論能力の低下を示すことが多い。我々は、この制限が、現在のSLLMのトレーニングパラダイムが特徴表現空間における音響-意味的ギャップを埋められないことに起因すると仮説を立てた。この問題を解決するため、我々はEchoXを提案する。EchoXは意味的表現を活用し、動的に音声トレーニングターゲットを生成する。このアプローチは音響的学習と意味的学習を統合し、EchoXが音声LLMとして強力な推論能力を維持することを可能にする。実験結果は、約6千時間のトレーニングデータを用いたEchoXが、複数の知識ベースの質問応答ベンチマークで先進的な性能を達成することを示している。本プロジェクトはhttps://github.com/FreedomIntelligence/EchoXで公開されている。
English
Speech-to-speech large language models (SLLMs) are attracting increasing
attention. Derived from text-based large language models (LLMs), SLLMs often
exhibit degradation in knowledge and reasoning capabilities. We hypothesize
that this limitation arises because current training paradigms for SLLMs fail
to bridge the acoustic-semantic gap in the feature representation space. To
address this issue, we propose EchoX, which leverages semantic representations
and dynamically generates speech training targets. This approach integrates
both acoustic and semantic learning, enabling EchoX to preserve strong
reasoning abilities as a speech LLM. Experimental results demonstrate that
EchoX, with about six thousand hours of training data, achieves advanced
performance on multiple knowledge-based question-answering benchmarks. The
project is available at https://github.com/FreedomIntelligence/EchoX.