Luisteren om te Vertalen: De Effectiviteit van Spraakmodaliteitsintegratie in LLM's
Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMs
December 18, 2025
Auteurs: Sara Papi, Javier Garcia Gilabert, Zachary Hopton, Vilém Zouhar, Carlos Escolano, Gerard I. Gállego, Jorge Iranzo-Sánchez, Ahrii Kim, Dominik Macháček, Patricia Schmidtova, Maike Züfle
cs.AI
Samenvatting
Naarmate grote taalmodelen (LLM's) zich uitbreiden voorbij tekst, heeft de integratie van spraak als een native modaliteit aanleiding gegeven tot SpeechLLM's. Deze beogen gesproken taal direct te vertalen, waardoor traditionele op transcriptie gebaseerde pijplijnen worden omzeild. Of deze integratie de kwaliteit van spraak-naar-tekst-vertaling verbetert ten opzichte van gevestigde gecascadeerde architecturen, blijft echter een open vraag. Wij presenteren Hearing to Translate, de eerste uitgebreide testset die 5 state-of-the-art SpeechLLM's rigoureus benchmarkt tegen 16 sterke directe en cascade-systemen. Deze systemen koppelen toonaangevende spraakfundamentmodellen (SFM's) aan meertalige LLM's. Onze analyse omvat 16 benchmarks, 13 taalparen en 9 uitdagende condities, waaronder onvloeiende, lawaaierige en lange spraak. In deze uitgebreide evaluatie constateren we dat gecascadeerde systemen over het algemeen het meest betrouwbaar blijven, terwijl huidige SpeechLLM's enkel cascades evenaren in specifieke settings en SFM's achterblijven bij beide. Dit benadrukt dat de integratie van een LLM, hetzij in het model zelf of in een pijplijn, essentieel is voor hoogwaardige spraakvertaling.
English
As Large Language Models (LLMs) expand beyond text, integrating speech as a native modality has given rise to SpeechLLMs, which aim to translate spoken language directly, thereby bypassing traditional transcription-based pipelines. Whether this integration improves speech-to-text translation quality over established cascaded architectures, however, remains an open question. We present Hearing to Translate, the first comprehensive test suite rigorously benchmarking 5 state-of-the-art SpeechLLMs against 16 strong direct and cascade systems that couple leading speech foundation models (SFM), with multilingual LLMs. Our analysis spans 16 benchmarks, 13 language pairs, and 9 challenging conditions, including disfluent, noisy, and long-form speech. Across this extensive evaluation, we find that cascaded systems remain the most reliable overall, while current SpeechLLMs only match cascades in selected settings and SFMs lag behind both, highlighting that integrating an LLM, either within the model or in a pipeline, is essential for high-quality speech translation.