Ascolto per Tradurre: L'Efficacia dell'Integrazione della Modalità Vocale nei Modelli Linguistici di Grande Dimensione
Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMs
December 18, 2025
Autori: Sara Papi, Javier Garcia Gilabert, Zachary Hopton, Vilém Zouhar, Carlos Escolano, Gerard I. Gállego, Jorge Iranzo-Sánchez, Ahrii Kim, Dominik Macháček, Patricia Schmidtova, Maike Züfle
cs.AI
Abstract
Mentre i modelli linguistici di grandi dimensioni (LLM) si espandono oltre il testo, l'integrazione del parlato come modalità nativa ha dato origine agli SpeechLLM, che mirano a tradurre direttamente il linguaggio parlato, bypassando così le tradizionali pipeline basate sulla trascrizione. Tuttavia, se questa integrazione migliori la qualità della traduzione parlato-testo rispetto alle consolidate architetture a cascata rimane una questione aperta. Presentiamo *Hearing to Translate*, la prima suite di test completa che confronta rigorosamente 5 SpeechLLM all'avanguardia con 16 sistemi diretti e a cascata di alto livello, che accoppiano modelli fondazionali per il parlato (SFM) leader di settore con LLM multilingue. La nostra analisi copre 16 benchmark, 13 coppie linguistiche e 9 condizioni complesse, tra cui parlato disfluente, rumoroso e in forma lunga. In questa valutazione estensiva, rileviamo che i sistemi a cascata rimangono complessamente i più affidabili, mentre gli SpeechLLM attuali equivalgono alle cascate solo in contesti selezionati e gli SFM rimangono indietro rispetto ad entrambi, sottolineando come l'integrazione di un LLM, sia all'interno del modello che in una pipeline, sia essenziale per una traduzione vocale di alta qualità.
English
As Large Language Models (LLMs) expand beyond text, integrating speech as a native modality has given rise to SpeechLLMs, which aim to translate spoken language directly, thereby bypassing traditional transcription-based pipelines. Whether this integration improves speech-to-text translation quality over established cascaded architectures, however, remains an open question. We present Hearing to Translate, the first comprehensive test suite rigorously benchmarking 5 state-of-the-art SpeechLLMs against 16 strong direct and cascade systems that couple leading speech foundation models (SFM), with multilingual LLMs. Our analysis spans 16 benchmarks, 13 language pairs, and 9 challenging conditions, including disfluent, noisy, and long-form speech. Across this extensive evaluation, we find that cascaded systems remain the most reliable overall, while current SpeechLLMs only match cascades in selected settings and SFMs lag behind both, highlighting that integrating an LLM, either within the model or in a pipeline, is essential for high-quality speech translation.