Audition pour Traduire : L'Efficacité de l'Intégration de la Modalité Vocale dans les LLMs
Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMs
December 18, 2025
papers.authors: Sara Papi, Javier Garcia Gilabert, Zachary Hopton, Vilém Zouhar, Carlos Escolano, Gerard I. Gállego, Jorge Iranzo-Sánchez, Ahrii Kim, Dominik Macháček, Patricia Schmidtova, Maike Züfle
cs.AI
papers.abstract
Alors que les modèles de langage de grande taille (LLM) s'étendent au-delà du texte, l'intégration de la parole comme modalité native a donné naissance aux SpeechLLM, qui visent à traduire directement la langue parlée, contournant ainsi les pipelines traditionnels basés sur la transcription. La question de savoir si cette intégration améliore la qualité de la traduction parole-texte par rapport aux architectures en cascade établies reste cependant ouverte. Nous présentons Hearing to Translate, la première suite de tests complète évaluant rigoureusement 5 SpeechLLM de pointe contre 16 systèmes directs et en cascade performants, associant des modèles de fondation audio (SFM) leaders à des LLM multilingues. Notre analyse couvre 16 benchmarks, 13 paires de langues et 9 conditions difficiles, incluant la parole hésitante, bruitée et de longue durée. À travers cette évaluation extensive, nous constatons que les systèmes en cascade restent globalement les plus fiables, tandis que les SpeechLLM actuels n'égalent les cascades que dans des contextes spécifiques, et que les SFM sont à la traîne des deux, soulignant qu'intégrer un LLM, que ce soit au sein du modèle ou dans un pipeline, est essentiel pour une traduction parole-texte de haute qualité.
English
As Large Language Models (LLMs) expand beyond text, integrating speech as a native modality has given rise to SpeechLLMs, which aim to translate spoken language directly, thereby bypassing traditional transcription-based pipelines. Whether this integration improves speech-to-text translation quality over established cascaded architectures, however, remains an open question. We present Hearing to Translate, the first comprehensive test suite rigorously benchmarking 5 state-of-the-art SpeechLLMs against 16 strong direct and cascade systems that couple leading speech foundation models (SFM), with multilingual LLMs. Our analysis spans 16 benchmarks, 13 language pairs, and 9 challenging conditions, including disfluent, noisy, and long-form speech. Across this extensive evaluation, we find that cascaded systems remain the most reliable overall, while current SpeechLLMs only match cascades in selected settings and SFMs lag behind both, highlighting that integrating an LLM, either within the model or in a pipeline, is essential for high-quality speech translation.