EchoX: Сокращение акустико-семантического разрыва с помощью эхо-тренинга для речевых языковых моделей (Speech-to-Speech LLMs)
EchoX: Towards Mitigating Acoustic-Semantic Gap via Echo Training for Speech-to-Speech LLMs
September 11, 2025
Авторы: Yuhao Zhang, Yuhao Du, Zhanchen Dai, Xiangnan Ma, Kaiqi Kou, Benyou Wang, Haizhou Li
cs.AI
Аннотация
Модели обработки речи на основе больших языковых моделей (SLLMs) привлекают всё больше внимания. Будучи производными от текстовых больших языковых моделей (LLMs), SLLMs часто демонстрируют снижение способностей к обработке знаний и логическому рассуждению. Мы предполагаем, что это ограничение возникает из-за того, что текущие парадигмы обучения SLLMs не способны преодолеть акустико-семантический разрыв в пространстве представления признаков. Для решения этой проблемы мы предлагаем EchoX, который использует семантические представления и динамически генерирует целевые данные для обучения речи. Этот подход интегрирует как акустическое, так и семантическое обучение, что позволяет EchoX сохранять сильные способности к рассуждению в качестве речевой LLM. Экспериментальные результаты показывают, что EchoX, обученный на примерно шести тысячах часов данных, достигает высоких показателей на нескольких тестах, основанных на вопросах, требующих знаний. Проект доступен по адресу https://github.com/FreedomIntelligence/EchoX.
English
Speech-to-speech large language models (SLLMs) are attracting increasing
attention. Derived from text-based large language models (LLMs), SLLMs often
exhibit degradation in knowledge and reasoning capabilities. We hypothesize
that this limitation arises because current training paradigms for SLLMs fail
to bridge the acoustic-semantic gap in the feature representation space. To
address this issue, we propose EchoX, which leverages semantic representations
and dynamically generates speech training targets. This approach integrates
both acoustic and semantic learning, enabling EchoX to preserve strong
reasoning abilities as a speech LLM. Experimental results demonstrate that
EchoX, with about six thousand hours of training data, achieves advanced
performance on multiple knowledge-based question-answering benchmarks. The
project is available at https://github.com/FreedomIntelligence/EchoX.