음성 양식 통합의 LLM 적용 효과: 듣기와 번역
Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMs
December 18, 2025
저자: Sara Papi, Javier Garcia Gilabert, Zachary Hopton, Vilém Zouhar, Carlos Escolano, Gerard I. Gállego, Jorge Iranzo-Sánchez, Ahrii Kim, Dominik Macháček, Patricia Schmidtova, Maike Züfle
cs.AI
초록
대규모 언어 모델(LLM)이 텍스트를 넘어 음성으로 확장되면서, 음성을 기본 모달리티로 통합한 SpeechLLM이 등장하여 기존의 음성 인식 기반 파이프라인을 우회하고 직접 구어를 번역하는 것을 목표로 하고 있습니다. 그러나 이러한 통합이 기존의 계단식(cascade) 아키텍처 대비 음성-텍스트 번역 품질을 향상시키는지 여부는 여전히 해결되지 않은 과제입니다. 본 연구는 'Hearing to Translate'라는 첫 번째 포괄적인 테스트 슈트를 제시하며, 5개의 최첨단 SpeechLLM을 선도적인 음성 기반 모델(SFM)과 다국어 LLM을 결합한 16개의 강력한 직접(direct) 및 계단식 시스템과 엄격하게 비교 평가합니다. 우리의 분석은 16개 벤치마크, 13개 언어 쌍, 그리고 더듬거림, 잡음, 장문 음성 등 9가지 까다로운 조건에 걸쳐 진행됩니다. 이 광범위한 평가를 통해 우리는 계단식 시스템이 전반적으로 가장 신뢰할 만한 성능을 유지하는 반면, 현재의 SpeechLLM은 특정 조건에서만 계단식 시스템과 동등한 성능을 보이며, SFM은 양자 모두에 뒤처지는 것을 확인했습니다. 이는 고품질 음성 번역을 위해서는 모델 내부에든 파이프라인 상에든 LLM을 통합하는 것이 필수적임을 강조합니다.
English
As Large Language Models (LLMs) expand beyond text, integrating speech as a native modality has given rise to SpeechLLMs, which aim to translate spoken language directly, thereby bypassing traditional transcription-based pipelines. Whether this integration improves speech-to-text translation quality over established cascaded architectures, however, remains an open question. We present Hearing to Translate, the first comprehensive test suite rigorously benchmarking 5 state-of-the-art SpeechLLMs against 16 strong direct and cascade systems that couple leading speech foundation models (SFM), with multilingual LLMs. Our analysis spans 16 benchmarks, 13 language pairs, and 9 challenging conditions, including disfluent, noisy, and long-form speech. Across this extensive evaluation, we find that cascaded systems remain the most reliable overall, while current SpeechLLMs only match cascades in selected settings and SFMs lag behind both, highlighting that integrating an LLM, either within the model or in a pipeline, is essential for high-quality speech translation.