Soundwave : Moins, c'est mieux pour l'alignement parole-texte dans les LLM

papers.abstract

Les modèles de langage de grande taille (LLM) end-to-end existants pour la parole reposent généralement sur des données annotées à grande échelle pour leur entraînement, tandis que l'entraînement efficace en termes de données n'a pas été approfondi. Nous nous concentrons sur deux problèmes fondamentaux entre la parole et le texte : l'écart dans l'espace de représentation et l'incohérence de la longueur des séquences. Nous proposons Soundwave, qui utilise une stratégie d'entraînement efficace et une architecture novatrice pour résoudre ces problèmes. Les résultats montrent que Soundwave surpasse le modèle avancé Qwen2-Audio en traduction de la parole et dans les tâches de parole d'AIR-Bench, en utilisant seulement un cinquantième des données d'entraînement. Une analyse plus approfondie révèle que Soundwave conserve son intelligence lors des conversations. Le projet est disponible à l'adresse https://github.com/FreedomIntelligence/Soundwave.

English

Existing end-to-end speech large language models (LLMs) usually rely on large-scale annotated data for training, while data-efficient training has not been discussed in depth. We focus on two fundamental problems between speech and text: the representation space gap and sequence length inconsistency. We propose Soundwave, which utilizes an efficient training strategy and a novel architecture to address these issues. Results show that Soundwave outperforms the advanced Qwen2-Audio in speech translation and AIR-Bench speech tasks, using only one-fiftieth of the training data. Further analysis shows that Soundwave still retains its intelligence during conversation. The project is available at https://github.com/FreedomIntelligence/Soundwave.

Soundwave : Moins, c'est mieux pour l'alignement parole-texte dans les LLM

Soundwave: Less is More for Speech-Text Alignment in LLMs

papers.abstract

Support