Soundwave : Moins, c'est mieux pour l'alignement parole-texte dans les LLMSoundwave: Less is More for Speech-Text Alignment in LLMs
Les modèles de langage de grande taille (LLM) end-to-end existants pour la parole reposent généralement sur des données annotées à grande échelle pour leur entraînement, tandis que l'entraînement efficace en termes de données n'a pas été approfondi. Nous nous concentrons sur deux problèmes fondamentaux entre la parole et le texte : l'écart dans l'espace de représentation et l'incohérence de la longueur des séquences. Nous proposons Soundwave, qui utilise une stratégie d'entraînement efficace et une architecture novatrice pour résoudre ces problèmes. Les résultats montrent que Soundwave surpasse le modèle avancé Qwen2-Audio en traduction de la parole et dans les tâches de parole d'AIR-Bench, en utilisant seulement un cinquantième des données d'entraînement. Une analyse plus approfondie révèle que Soundwave conserve son intelligence lors des conversations. Le projet est disponible à l'adresse https://github.com/FreedomIntelligence/Soundwave.