ChatPaper.aiChatPaper

Soundwave: Weniger ist mehr für die Sprach-Text-Ausrichtung in LLMs

Soundwave: Less is More for Speech-Text Alignment in LLMs

February 18, 2025
Autoren: Yuhao Zhang, Zhiheng Liu, Fan Bu, Ruiyu Zhang, Benyou Wang, Haizhou Li
cs.AI

Zusammenfassung

Bestehende end-to-end Sprachmodelle (LLMs) basieren in der Regel auf groß angelegten annotierten Daten für das Training, während dateneffizientes Training bisher nicht eingehend diskutiert wurde. Wir konzentrieren uns auf zwei grundlegende Probleme zwischen Sprache und Text: die Lücke im Repräsentationsraum und die Inkonsistenz der Sequenzlänge. Wir stellen Soundwave vor, das eine effiziente Trainingsstrategie und eine neuartige Architektur nutzt, um diese Probleme zu lösen. Die Ergebnisse zeigen, dass Soundwave das fortschrittliche Qwen2-Audio in der Sprachübersetzung und den AIR-Bench-Sprachaufgaben übertrifft, wobei nur ein Fünfzigstel der Trainingsdaten verwendet wird. Weitere Analysen zeigen, dass Soundwave seine Intelligenz während der Konversation beibehält. Das Projekt ist unter https://github.com/FreedomIntelligence/Soundwave verfügbar.
English
Existing end-to-end speech large language models (LLMs) usually rely on large-scale annotated data for training, while data-efficient training has not been discussed in depth. We focus on two fundamental problems between speech and text: the representation space gap and sequence length inconsistency. We propose Soundwave, which utilizes an efficient training strategy and a novel architecture to address these issues. Results show that Soundwave outperforms the advanced Qwen2-Audio in speech translation and AIR-Bench speech tasks, using only one-fiftieth of the training data. Further analysis shows that Soundwave still retains its intelligence during conversation. The project is available at https://github.com/FreedomIntelligence/Soundwave.

Summary

AI-Generated Summary

PDF864February 19, 2025