Soundwave : Moins, c'est mieux pour l'alignement parole-texte dans les LLM
Soundwave: Less is More for Speech-Text Alignment in LLMs
February 18, 2025
Auteurs: Yuhao Zhang, Zhiheng Liu, Fan Bu, Ruiyu Zhang, Benyou Wang, Haizhou Li
cs.AI
Résumé
Les modèles de langage de grande taille (LLM) end-to-end existants pour la parole reposent généralement sur des données annotées à grande échelle pour leur entraînement, tandis que l'entraînement efficace en termes de données n'a pas été approfondi. Nous nous concentrons sur deux problèmes fondamentaux entre la parole et le texte : l'écart dans l'espace de représentation et l'incohérence de la longueur des séquences. Nous proposons Soundwave, qui utilise une stratégie d'entraînement efficace et une architecture novatrice pour résoudre ces problèmes. Les résultats montrent que Soundwave surpasse le modèle avancé Qwen2-Audio en traduction de la parole et dans les tâches de parole d'AIR-Bench, en utilisant seulement un cinquantième des données d'entraînement. Une analyse plus approfondie révèle que Soundwave conserve son intelligence lors des conversations. Le projet est disponible à l'adresse https://github.com/FreedomIntelligence/Soundwave.
English
Existing end-to-end speech large language models (LLMs) usually rely on
large-scale annotated data for training, while data-efficient training has not
been discussed in depth. We focus on two fundamental problems between speech
and text: the representation space gap and sequence length inconsistency. We
propose Soundwave, which utilizes an efficient training strategy and a novel
architecture to address these issues. Results show that Soundwave outperforms
the advanced Qwen2-Audio in speech translation and AIR-Bench speech tasks,
using only one-fiftieth of the training data. Further analysis shows that
Soundwave still retains its intelligence during conversation. The project is
available at https://github.com/FreedomIntelligence/Soundwave.Summary
AI-Generated Summary