Soundwave: Menos es Más para la Alineación Habla-Texto en Modelos de Lenguaje de Gran Escala
Soundwave: Less is More for Speech-Text Alignment in LLMs
February 18, 2025
Autores: Yuhao Zhang, Zhiheng Liu, Fan Bu, Ruiyu Zhang, Benyou Wang, Haizhou Li
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLM) de habla de extremo a extremo existentes suelen depender de grandes cantidades de datos anotados para su entrenamiento, mientras que el entrenamiento eficiente en términos de datos no ha sido discutido en profundidad. Nos enfocamos en dos problemas fundamentales entre el habla y el texto: la brecha en el espacio de representación y la inconsistencia en la longitud de las secuencias. Proponemos Soundwave, que utiliza una estrategia de entrenamiento eficiente y una arquitectura novedosa para abordar estos problemas. Los resultados muestran que Soundwave supera al avanzado Qwen2-Audio en tareas de traducción de habla y en las pruebas de habla de AIR-Bench, utilizando solo una cincuentava parte de los datos de entrenamiento. Un análisis adicional muestra que Soundwave conserva su inteligencia durante las conversaciones. El proyecto está disponible en https://github.com/FreedomIntelligence/Soundwave.
English
Existing end-to-end speech large language models (LLMs) usually rely on
large-scale annotated data for training, while data-efficient training has not
been discussed in depth. We focus on two fundamental problems between speech
and text: the representation space gap and sequence length inconsistency. We
propose Soundwave, which utilizes an efficient training strategy and a novel
architecture to address these issues. Results show that Soundwave outperforms
the advanced Qwen2-Audio in speech translation and AIR-Bench speech tasks,
using only one-fiftieth of the training data. Further analysis shows that
Soundwave still retains its intelligence during conversation. The project is
available at https://github.com/FreedomIntelligence/Soundwave.Summary
AI-Generated Summary