Ouvir para Traduzir: A Eficácia da Integração da Modalidade de Fala em LLMs
Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMs
December 18, 2025
Autores: Sara Papi, Javier Garcia Gilabert, Zachary Hopton, Vilém Zouhar, Carlos Escolano, Gerard I. Gállego, Jorge Iranzo-Sánchez, Ahrii Kim, Dominik Macháček, Patricia Schmidtova, Maike Züfle
cs.AI
Resumo
Com a expansão dos Grandes Modelos de Linguagem (LLMs) para além do texto, a integração da fala como modalidade nativa deu origem aos SpeechLLMs, que visam traduzir a linguagem falada diretamente, contornando assim os tradicionais pipelines baseados em transcrição. No entanto, se esta integração melhora a qualidade da tradução de fala para texto em relação às consolidadas arquiteturas em cascata permanece uma questão em aberto. Apresentamos o Hearing to Translate, o primeiro conjunto de testes abrangente que avalia rigorosamente 5 SpeechLLMs de última geração contra 16 sistemas fortes, diretos e em cascata, que combinam modelos de fundação de fala (SFM) líderes com LLMs multilíngues. A nossa análise abrange 16 benchmarks, 13 pares de idiomas e 9 condições desafiadoras, incluindo fala disfluente, ruidosa e de longa duração. Ao longo desta avaliação extensiva, concluímos que os sistemas em cascata permanecem os mais confiáveis no geral, enquanto os SpeechLLMs atuais apenas se equiparam às cascatas em configurações específicas e os SFMs ficam atrás de ambos, destacando que a integração de um LLM, seja dentro do modelo ou num pipeline, é essencial para uma tradução de fala de alta qualidade.
English
As Large Language Models (LLMs) expand beyond text, integrating speech as a native modality has given rise to SpeechLLMs, which aim to translate spoken language directly, thereby bypassing traditional transcription-based pipelines. Whether this integration improves speech-to-text translation quality over established cascaded architectures, however, remains an open question. We present Hearing to Translate, the first comprehensive test suite rigorously benchmarking 5 state-of-the-art SpeechLLMs against 16 strong direct and cascade systems that couple leading speech foundation models (SFM), with multilingual LLMs. Our analysis spans 16 benchmarks, 13 language pairs, and 9 challenging conditions, including disfluent, noisy, and long-form speech. Across this extensive evaluation, we find that cascaded systems remain the most reliable overall, while current SpeechLLMs only match cascades in selected settings and SFMs lag behind both, highlighting that integrating an LLM, either within the model or in a pipeline, is essential for high-quality speech translation.