EchoX: Rumo à Mitigação da Lacuna Acústico-Semântica via Treinamento de Eco para LLMs de Fala para Fala
EchoX: Towards Mitigating Acoustic-Semantic Gap via Echo Training for Speech-to-Speech LLMs
September 11, 2025
Autores: Yuhao Zhang, Yuhao Du, Zhanchen Dai, Xiangnan Ma, Kaiqi Kou, Benyou Wang, Haizhou Li
cs.AI
Resumo
Modelos de linguagem de grande escala para fala (SLLMs) estão atraindo atenção crescente. Derivados de modelos de linguagem de grande escala baseados em texto (LLMs), os SLLMs frequentemente exibem degradação nas capacidades de conhecimento e raciocínio. Nossa hipótese é que essa limitação surge porque os paradigmas de treinamento atuais para SLLMs não conseguem preencher a lacuna acústico-semântica no espaço de representação de características. Para resolver esse problema, propomos o EchoX, que aproveita representações semânticas e gera dinamicamente alvos de treinamento de fala. Essa abordagem integra tanto o aprendizado acústico quanto o semântico, permitindo que o EchoX preserve fortes habilidades de raciocínio como um modelo de linguagem de grande escala para fala. Resultados experimentais demonstram que o EchoX, com cerca de seis mil horas de dados de treinamento, alcança desempenho avançado em múltiplos benchmarks de questionamento baseado em conhecimento. O projeto está disponível em https://github.com/FreedomIntelligence/EchoX.
English
Speech-to-speech large language models (SLLMs) are attracting increasing
attention. Derived from text-based large language models (LLMs), SLLMs often
exhibit degradation in knowledge and reasoning capabilities. We hypothesize
that this limitation arises because current training paradigms for SLLMs fail
to bridge the acoustic-semantic gap in the feature representation space. To
address this issue, we propose EchoX, which leverages semantic representations
and dynamically generates speech training targets. This approach integrates
both acoustic and semantic learning, enabling EchoX to preserve strong
reasoning abilities as a speech LLM. Experimental results demonstrate that
EchoX, with about six thousand hours of training data, achieves advanced
performance on multiple knowledge-based question-answering benchmarks. The
project is available at https://github.com/FreedomIntelligence/EchoX.