EchoX: Hacia la mitigación de la brecha acústico-semántica mediante entrenamiento con eco para modelos de lenguaje de habla a habla
EchoX: Towards Mitigating Acoustic-Semantic Gap via Echo Training for Speech-to-Speech LLMs
September 11, 2025
Autores: Yuhao Zhang, Yuhao Du, Zhanchen Dai, Xiangnan Ma, Kaiqi Kou, Benyou Wang, Haizhou Li
cs.AI
Resumen
Los modelos de lenguaje grande de voz a voz (SLLMs, por sus siglas en inglés) están atrayendo una atención creciente. Derivados de los modelos de lenguaje grande basados en texto (LLMs), los SLLMs suelen mostrar una degradación en sus capacidades de conocimiento y razonamiento. Nuestra hipótesis es que esta limitación surge porque los paradigmas de entrenamiento actuales para los SLLMs no logran cerrar la brecha acústico-semántica en el espacio de representación de características. Para abordar este problema, proponemos EchoX, que aprovecha las representaciones semánticas y genera dinámicamente objetivos de entrenamiento de voz. Este enfoque integra tanto el aprendizaje acústico como el semántico, permitiendo que EchoX preserve fuertes habilidades de razonamiento como un modelo de lenguaje grande de voz. Los resultados experimentales demuestran que EchoX, con aproximadamente seis mil horas de datos de entrenamiento, logra un rendimiento avanzado en múltiples benchmarks de preguntas y respuestas basadas en conocimiento. El proyecto está disponible en https://github.com/FreedomIntelligence/EchoX.
English
Speech-to-speech large language models (SLLMs) are attracting increasing
attention. Derived from text-based large language models (LLMs), SLLMs often
exhibit degradation in knowledge and reasoning capabilities. We hypothesize
that this limitation arises because current training paradigms for SLLMs fail
to bridge the acoustic-semantic gap in the feature representation space. To
address this issue, we propose EchoX, which leverages semantic representations
and dynamically generates speech training targets. This approach integrates
both acoustic and semantic learning, enabling EchoX to preserve strong
reasoning abilities as a speech LLM. Experimental results demonstrate that
EchoX, with about six thousand hours of training data, achieves advanced
performance on multiple knowledge-based question-answering benchmarks. The
project is available at https://github.com/FreedomIntelligence/EchoX.