ChatPaper.aiChatPaper

EchoX: Verso la mitigazione del divario acustico-semantico attraverso l'addestramento con echi per modelli linguistici da voce a voce

EchoX: Towards Mitigating Acoustic-Semantic Gap via Echo Training for Speech-to-Speech LLMs

September 11, 2025
Autori: Yuhao Zhang, Yuhao Du, Zhanchen Dai, Xiangnan Ma, Kaiqi Kou, Benyou Wang, Haizhou Li
cs.AI

Abstract

I modelli linguistici di grandi dimensioni per la conversione da voce a voce (SLLM) stanno attirando un'attenzione crescente. Derivati dai modelli linguistici di grandi dimensioni basati su testo (LLM), gli SLLM spesso mostrano un degrado nelle capacità di conoscenza e ragionamento. Ipotesizziamo che questa limitazione derivi dal fatto che gli attuali paradigmi di addestramento per gli SLLM non riescono a colmare il divario acustico-semantico nello spazio di rappresentazione delle caratteristiche. Per affrontare questo problema, proponiamo EchoX, che sfrutta rappresentazioni semantiche e genera dinamicamente obiettivi di addestramento vocali. Questo approccio integra sia l'apprendimento acustico che quello semantico, consentendo a EchoX di preservare forti capacità di ragionamento come modello linguistico vocale. I risultati sperimentali dimostrano che EchoX, con circa seimila ore di dati di addestramento, raggiunge prestazioni avanzate su molteplici benchmark di risposta a domande basate sulla conoscenza. Il progetto è disponibile all'indirizzo https://github.com/FreedomIntelligence/EchoX.
English
Speech-to-speech large language models (SLLMs) are attracting increasing attention. Derived from text-based large language models (LLMs), SLLMs often exhibit degradation in knowledge and reasoning capabilities. We hypothesize that this limitation arises because current training paradigms for SLLMs fail to bridge the acoustic-semantic gap in the feature representation space. To address this issue, we propose EchoX, which leverages semantic representations and dynamically generates speech training targets. This approach integrates both acoustic and semantic learning, enabling EchoX to preserve strong reasoning abilities as a speech LLM. Experimental results demonstrate that EchoX, with about six thousand hours of training data, achieves advanced performance on multiple knowledge-based question-answering benchmarks. The project is available at https://github.com/FreedomIntelligence/EchoX.
PDF573September 12, 2025