ChatPaper.aiChatPaper

EchoX: Ansätze zur Minderung der akustisch-semantischen Lücke durch Echo-Training für Sprach-zu-Sprach-LLMs

EchoX: Towards Mitigating Acoustic-Semantic Gap via Echo Training for Speech-to-Speech LLMs

September 11, 2025
papers.authors: Yuhao Zhang, Yuhao Du, Zhanchen Dai, Xiangnan Ma, Kaiqi Kou, Benyou Wang, Haizhou Li
cs.AI

papers.abstract

Sprach-zu-Sprach-Großsprachmodelle (SLLMs) ziehen zunehmend Aufmerksamkeit auf sich. Abgeleitet von textbasierten Großsprachmodellen (LLMs), zeigen SLLMs oft eine Verschlechterung in ihren Wissens- und Schlussfolgerungsfähigkeiten. Wir stellen die Hypothese auf, dass diese Einschränkung darauf zurückzuführen ist, dass die aktuellen Trainingsparadigmen für SLLMs die akustisch-semantische Lücke im Merkmalsrepräsentationsraum nicht überbrücken. Um dieses Problem zu lösen, schlagen wir EchoX vor, das semantische Repräsentationen nutzt und dynamisch Sprachtrainingsziele generiert. Dieser Ansatz integriert sowohl akustisches als auch semantisches Lernen und ermöglicht es EchoX, starke Schlussfolgerungsfähigkeiten als Sprach-Großsprachmodell zu bewahren. Experimentelle Ergebnisse zeigen, dass EchoX mit etwa sechstausend Stunden Trainingsdaten eine fortgeschrittene Leistung auf mehreren wissensbasierten Frage-Antwort-Benchmarks erzielt. Das Projekt ist unter https://github.com/FreedomIntelligence/EchoX verfügbar.
English
Speech-to-speech large language models (SLLMs) are attracting increasing attention. Derived from text-based large language models (LLMs), SLLMs often exhibit degradation in knowledge and reasoning capabilities. We hypothesize that this limitation arises because current training paradigms for SLLMs fail to bridge the acoustic-semantic gap in the feature representation space. To address this issue, we propose EchoX, which leverages semantic representations and dynamically generates speech training targets. This approach integrates both acoustic and semantic learning, enabling EchoX to preserve strong reasoning abilities as a speech LLM. Experimental results demonstrate that EchoX, with about six thousand hours of training data, achieves advanced performance on multiple knowledge-based question-answering benchmarks. The project is available at https://github.com/FreedomIntelligence/EchoX.
PDF533September 12, 2025