Soundwave: Minder is Meer voor Spraak-Tekst Uitlijning in LLM'sSoundwave: Less is More for Speech-Text Alignment in LLMs
Bestaande end-to-end spraak grote taalmodellen (LLMs) zijn meestal afhankelijk van grootschalige geannoteerde data voor training, terwijl data-efficiënte training nog niet diepgaand is besproken. Wij richten ons op twee fundamentele problemen tussen spraak en tekst: de representatieruimtekloof en de inconsistentie in sequentielengte. Wij stellen Soundwave voor, dat een efficiënte trainingsstrategie en een nieuwe architectuur gebruikt om deze problemen aan te pakken. Resultaten tonen aan dat Soundwave de geavanceerde Qwen2-Audio overtreft in spraakvertaling en AIR-Bench spraaktaken, terwijl slechts één vijftigste van de trainingsdata wordt gebruikt. Verdere analyse toont aan dat Soundwave zijn intelligentie behoudt tijdens gesprekken. Het project is beschikbaar op https://github.com/FreedomIntelligence/Soundwave.