EchoX: Naar het verminderen van de akoestisch-semantische kloof via echotraining voor spraak-naar-spraak LLM's

Samenvatting

Spraak-naar-spraak grote taalmodellen (SLLMs) trekken steeds meer aandacht. Afgeleid van tekstgebaseerde grote taalmodellen (LLMs), vertonen SLLMs vaak een achteruitgang in kennis en redeneervaardigheden. Wij veronderstellen dat deze beperking ontstaat omdat de huidige trainingsparadigma's voor SLLMs er niet in slagen de akoestisch-semantische kloof in de kenmerkrepresentatieruimte te overbruggen. Om dit probleem aan te pakken, stellen we EchoX voor, dat semantische representaties benut en dynamisch spraaktrainingsdoelen genereert. Deze aanpak integreert zowel akoestisch als semantisch leren, waardoor EchoX sterke redeneervaardigheden kan behouden als een spraak-LLM. Experimentele resultaten tonen aan dat EchoX, met ongeveer zesduizend uur aan trainingsdata, geavanceerde prestaties behaalt op meerdere kennisgebaseerde vraag-antwoordbenchmarks. Het project is beschikbaar op https://github.com/FreedomIntelligence/EchoX.

English

Speech-to-speech large language models (SLLMs) are attracting increasing attention. Derived from text-based large language models (LLMs), SLLMs often exhibit degradation in knowledge and reasoning capabilities. We hypothesize that this limitation arises because current training paradigms for SLLMs fail to bridge the acoustic-semantic gap in the feature representation space. To address this issue, we propose EchoX, which leverages semantic representations and dynamically generates speech training targets. This approach integrates both acoustic and semantic learning, enabling EchoX to preserve strong reasoning abilities as a speech LLM. Experimental results demonstrate that EchoX, with about six thousand hours of training data, achieves advanced performance on multiple knowledge-based question-answering benchmarks. The project is available at https://github.com/FreedomIntelligence/EchoX.

EchoX: Naar het verminderen van de akoestisch-semantische kloof via echotraining voor spraak-naar-spraak LLM's

EchoX: Towards Mitigating Acoustic-Semantic Gap via Echo Training for Speech-to-Speech LLMs

Samenvatting

Support