Soundwave: Minder is Meer voor Spraak-Tekst Uitlijning in LLM's

Samenvatting

Bestaande end-to-end spraak grote taalmodellen (LLMs) zijn meestal afhankelijk van grootschalige geannoteerde data voor training, terwijl data-efficiënte training nog niet diepgaand is besproken. Wij richten ons op twee fundamentele problemen tussen spraak en tekst: de representatieruimtekloof en de inconsistentie in sequentielengte. Wij stellen Soundwave voor, dat een efficiënte trainingsstrategie en een nieuwe architectuur gebruikt om deze problemen aan te pakken. Resultaten tonen aan dat Soundwave de geavanceerde Qwen2-Audio overtreft in spraakvertaling en AIR-Bench spraaktaken, terwijl slechts één vijftigste van de trainingsdata wordt gebruikt. Verdere analyse toont aan dat Soundwave zijn intelligentie behoudt tijdens gesprekken. Het project is beschikbaar op https://github.com/FreedomIntelligence/Soundwave.

English

Existing end-to-end speech large language models (LLMs) usually rely on large-scale annotated data for training, while data-efficient training has not been discussed in depth. We focus on two fundamental problems between speech and text: the representation space gap and sequence length inconsistency. We propose Soundwave, which utilizes an efficient training strategy and a novel architecture to address these issues. Results show that Soundwave outperforms the advanced Qwen2-Audio in speech translation and AIR-Bench speech tasks, using only one-fiftieth of the training data. Further analysis shows that Soundwave still retains its intelligence during conversation. The project is available at https://github.com/FreedomIntelligence/Soundwave.

Soundwave: Minder is Meer voor Spraak-Tekst Uitlijning in LLM's

Soundwave: Less is More for Speech-Text Alignment in LLMs

Samenvatting

Support