ChatPaper.aiChatPaper

EchoX : Vers une réduction de l'écart acoustico-sémantique par entraînement par écho pour les modèles de langage parole-à-parole

EchoX: Towards Mitigating Acoustic-Semantic Gap via Echo Training for Speech-to-Speech LLMs

September 11, 2025
papers.authors: Yuhao Zhang, Yuhao Du, Zhanchen Dai, Xiangnan Ma, Kaiqi Kou, Benyou Wang, Haizhou Li
cs.AI

papers.abstract

Les grands modèles de langage parole-à-parole (SLLMs) suscitent un intérêt croissant. Dérivés des grands modèles de langage basés sur le texte (LLMs), les SLLMs présentent souvent une dégradation de leurs capacités de connaissance et de raisonnement. Nous émettons l'hypothèse que cette limitation découle du fait que les paradigmes d'entraînement actuels pour les SLLMs ne parviennent pas à combler l'écart acoustico-sémantique dans l'espace de représentation des caractéristiques. Pour résoudre ce problème, nous proposons EchoX, qui exploite des représentations sémantiques et génère dynamiquement des cibles d'entraînement vocales. Cette approche intègre à la fois l'apprentissage acoustique et sémantique, permettant à EchoX de préserver de solides capacités de raisonnement en tant que modèle de langage vocal. Les résultats expérimentaux montrent qu'EchoX, avec environ six mille heures de données d'entraînement, obtient des performances avancées sur plusieurs benchmarks de questions-réponses basées sur la connaissance. Le projet est disponible à l'adresse https://github.com/FreedomIntelligence/EchoX.
English
Speech-to-speech large language models (SLLMs) are attracting increasing attention. Derived from text-based large language models (LLMs), SLLMs often exhibit degradation in knowledge and reasoning capabilities. We hypothesize that this limitation arises because current training paradigms for SLLMs fail to bridge the acoustic-semantic gap in the feature representation space. To address this issue, we propose EchoX, which leverages semantic representations and dynamically generates speech training targets. This approach integrates both acoustic and semantic learning, enabling EchoX to preserve strong reasoning abilities as a speech LLM. Experimental results demonstrate that EchoX, with about six thousand hours of training data, achieves advanced performance on multiple knowledge-based question-answering benchmarks. The project is available at https://github.com/FreedomIntelligence/EchoX.
PDF523September 12, 2025