Audición para Traducir: La Efectividad de la Integración de la Modalidad del Habla en los Modelos de Lenguaje Grande
Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMs
December 18, 2025
Autores: Sara Papi, Javier Garcia Gilabert, Zachary Hopton, Vilém Zouhar, Carlos Escolano, Gerard I. Gállego, Jorge Iranzo-Sánchez, Ahrii Kim, Dominik Macháček, Patricia Schmidtova, Maike Züfle
cs.AI
Resumen
A medida que los Grandes Modelos de Lenguaje (LLM) se expanden más allá del texto, la integración del habla como modalidad nativa ha dado lugar a los SpeechLLM, cuyo objetivo es traducir el lenguaje hablado directamente, evitando así los enfoques tradicionales basados en transcripción. Sin embargo, si esta integración mejora la calidad de la traducción de voz a texto frente a las arquitecturas en cascada establecidas sigue siendo una cuestión abierta. Presentamos *Hearing to Translate*, el primer conjunto de pruebas integral que evalúa rigurosamente 5 SpeechLLM de última generación frente a 16 sistemas fuertes, tanto directos como en cascada, que combinan modelos fundamentales de habla (SFM) líderes con LLM multilingües. Nuestro análisis abarca 16 benchmarks, 13 pares de idiomas y 9 condiciones desafiantes, incluyendo habla con disfluencias, ruido y formato largo. En esta evaluación exhaustiva, encontramos que los sistemas en cascada siguen siendo los más confiables en general, mientras que los SpeechLLM actuales solo igualan a los sistemas en cascada en escenarios específicos, y los SFM se quedan por detrás de ambos. Esto subraya que integrar un LLM, ya sea dentro del modelo o en un *pipeline*, es esencial para una traducción de voz de alta calidad.
English
As Large Language Models (LLMs) expand beyond text, integrating speech as a native modality has given rise to SpeechLLMs, which aim to translate spoken language directly, thereby bypassing traditional transcription-based pipelines. Whether this integration improves speech-to-text translation quality over established cascaded architectures, however, remains an open question. We present Hearing to Translate, the first comprehensive test suite rigorously benchmarking 5 state-of-the-art SpeechLLMs against 16 strong direct and cascade systems that couple leading speech foundation models (SFM), with multilingual LLMs. Our analysis spans 16 benchmarks, 13 language pairs, and 9 challenging conditions, including disfluent, noisy, and long-form speech. Across this extensive evaluation, we find that cascaded systems remain the most reliable overall, while current SpeechLLMs only match cascades in selected settings and SFMs lag behind both, highlighting that integrating an LLM, either within the model or in a pipeline, is essential for high-quality speech translation.