Soundwave: Meno è Meglio per l'Allineamento Voce-Testo nei Modelli Linguistici di Grandi Dimensioni
Soundwave: Less is More for Speech-Text Alignment in LLMs
February 18, 2025
Autori: Yuhao Zhang, Zhiheng Liu, Fan Bu, Ruiyu Zhang, Benyou Wang, Haizhou Li
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) end-to-end esistenti per il parlato si basano solitamente su grandi quantità di dati annotati per l'addestramento, mentre l'addestramento efficiente in termini di dati non è stato approfonditamente discusso. Ci concentriamo su due problemi fondamentali tra parlato e testo: il divario nello spazio di rappresentazione e l'inconsistenza nella lunghezza delle sequenze. Proponiamo Soundwave, che utilizza una strategia di addestramento efficiente e una nuova architettura per affrontare queste problematiche. I risultati dimostrano che Soundwave supera l'avanzato Qwen2-Audio nella traduzione del parlato e nei task vocali di AIR-Bench, utilizzando solo un cinquantesimo dei dati di addestramento. Un'ulteriore analisi mostra che Soundwave mantiene la sua intelligenza durante la conversazione. Il progetto è disponibile all'indirizzo https://github.com/FreedomIntelligence/Soundwave.
English
Existing end-to-end speech large language models (LLMs) usually rely on
large-scale annotated data for training, while data-efficient training has not
been discussed in depth. We focus on two fundamental problems between speech
and text: the representation space gap and sequence length inconsistency. We
propose Soundwave, which utilizes an efficient training strategy and a novel
architecture to address these issues. Results show that Soundwave outperforms
the advanced Qwen2-Audio in speech translation and AIR-Bench speech tasks,
using only one-fiftieth of the training data. Further analysis shows that
Soundwave still retains its intelligence during conversation. The project is
available at https://github.com/FreedomIntelligence/Soundwave.Summary
AI-Generated Summary