Soundwave: Meno è Meglio per l'Allineamento Voce-Testo nei Modelli Linguistici di Grandi DimensioniSoundwave: Less is More for Speech-Text Alignment in LLMs
I modelli linguistici di grandi dimensioni (LLM) end-to-end esistenti per il parlato si basano solitamente su grandi quantità di dati annotati per l'addestramento, mentre l'addestramento efficiente in termini di dati non è stato approfonditamente discusso. Ci concentriamo su due problemi fondamentali tra parlato e testo: il divario nello spazio di rappresentazione e l'inconsistenza nella lunghezza delle sequenze. Proponiamo Soundwave, che utilizza una strategia di addestramento efficiente e una nuova architettura per affrontare queste problematiche. I risultati dimostrano che Soundwave supera l'avanzato Qwen2-Audio nella traduzione del parlato e nei task vocali di AIR-Bench, utilizzando solo un cinquantesimo dei dati di addestramento. Un'ulteriore analisi mostra che Soundwave mantiene la sua intelligenza durante la conversazione. Il progetto è disponibile all'indirizzo https://github.com/FreedomIntelligence/Soundwave.