Soundwave: Minder is Meer voor Spraak-Tekst Uitlijning in LLM's
Soundwave: Less is More for Speech-Text Alignment in LLMs
February 18, 2025
Auteurs: Yuhao Zhang, Zhiheng Liu, Fan Bu, Ruiyu Zhang, Benyou Wang, Haizhou Li
cs.AI
Samenvatting
Bestaande end-to-end spraak grote taalmodellen (LLMs) zijn meestal afhankelijk van grootschalige geannoteerde data voor training, terwijl data-efficiënte training nog niet diepgaand is besproken. Wij richten ons op twee fundamentele problemen tussen spraak en tekst: de representatieruimtekloof en de inconsistentie in sequentielengte. Wij stellen Soundwave voor, dat een efficiënte trainingsstrategie en een nieuwe architectuur gebruikt om deze problemen aan te pakken. Resultaten tonen aan dat Soundwave de geavanceerde Qwen2-Audio overtreft in spraakvertaling en AIR-Bench spraaktaken, terwijl slechts één vijftigste van de trainingsdata wordt gebruikt. Verdere analyse toont aan dat Soundwave zijn intelligentie behoudt tijdens gesprekken. Het project is beschikbaar op https://github.com/FreedomIntelligence/Soundwave.
English
Existing end-to-end speech large language models (LLMs) usually rely on
large-scale annotated data for training, while data-efficient training has not
been discussed in depth. We focus on two fundamental problems between speech
and text: the representation space gap and sequence length inconsistency. We
propose Soundwave, which utilizes an efficient training strategy and a novel
architecture to address these issues. Results show that Soundwave outperforms
the advanced Qwen2-Audio in speech translation and AIR-Bench speech tasks,
using only one-fiftieth of the training data. Further analysis shows that
Soundwave still retains its intelligence during conversation. The project is
available at https://github.com/FreedomIntelligence/Soundwave.Summary
AI-Generated Summary