EchoX: Naar het verminderen van de akoestisch-semantische kloof via echotraining voor spraak-naar-spraak LLM's
EchoX: Towards Mitigating Acoustic-Semantic Gap via Echo Training for Speech-to-Speech LLMs
September 11, 2025
Auteurs: Yuhao Zhang, Yuhao Du, Zhanchen Dai, Xiangnan Ma, Kaiqi Kou, Benyou Wang, Haizhou Li
cs.AI
Samenvatting
Spraak-naar-spraak grote taalmodellen (SLLMs) trekken steeds meer aandacht. Afgeleid van tekstgebaseerde grote taalmodellen (LLMs), vertonen SLLMs vaak een achteruitgang in kennis en redeneervaardigheden. Wij veronderstellen dat deze beperking ontstaat omdat de huidige trainingsparadigma's voor SLLMs er niet in slagen de akoestisch-semantische kloof in de kenmerkrepresentatieruimte te overbruggen. Om dit probleem aan te pakken, stellen we EchoX voor, dat semantische representaties benut en dynamisch spraaktrainingsdoelen genereert. Deze aanpak integreert zowel akoestisch als semantisch leren, waardoor EchoX sterke redeneervaardigheden kan behouden als een spraak-LLM. Experimentele resultaten tonen aan dat EchoX, met ongeveer zesduizend uur aan trainingsdata, geavanceerde prestaties behaalt op meerdere kennisgebaseerde vraag-antwoordbenchmarks. Het project is beschikbaar op https://github.com/FreedomIntelligence/EchoX.
English
Speech-to-speech large language models (SLLMs) are attracting increasing
attention. Derived from text-based large language models (LLMs), SLLMs often
exhibit degradation in knowledge and reasoning capabilities. We hypothesize
that this limitation arises because current training paradigms for SLLMs fail
to bridge the acoustic-semantic gap in the feature representation space. To
address this issue, we propose EchoX, which leverages semantic representations
and dynamically generates speech training targets. This approach integrates
both acoustic and semantic learning, enabling EchoX to preserve strong
reasoning abilities as a speech LLM. Experimental results demonstrate that
EchoX, with about six thousand hours of training data, achieves advanced
performance on multiple knowledge-based question-answering benchmarks. The
project is available at https://github.com/FreedomIntelligence/EchoX.