聴覚による翻訳:大規模言語モデルへの音声モダリティ統合の有効性
Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMs
December 18, 2025
著者: Sara Papi, Javier Garcia Gilabert, Zachary Hopton, Vilém Zouhar, Carlos Escolano, Gerard I. Gállego, Jorge Iranzo-Sánchez, Ahrii Kim, Dominik Macháček, Patricia Schmidtova, Maike Züfle
cs.AI
要旨
大規模言語モデル(LLM)がテキストを超えて拡大する中、音声をネイティブなモダリティとして統合する動きが進み、従来の書き起こしを基盤としたパイプラインを迂回して音声言語を直接翻訳することを目指すSpeechLLMが登場した。しかし、この統合が確立されたカスケード型アーキテクチャよりも音声テキスト翻訳の品質を向上させるかどうかは、未解決の問題である。本研究では、Hearing to Translateを提案する。これは、最先端の5つのSpeechLLMを、優れた音声基盤モデル(SFM)と多言語LLMを組み合わせた16の強力な直接・カスケードシステムと比較し、厳密にベンチマークを行う初の包括的なテストスイートである。分析は、16のベンチマーク、13の言語ペア、および非流暢、雑音混じり、長文音声など9つの困難な条件にわたる。この広範な評価を通じて、カスケード型システムが全体的に最も信頼性が高く、現時点のSpeechLLMは特定の設定でのみカスケード型システムに匹敵し、SFMは両者に遅れをとっていることが明らかになった。これは、モデル内またはパイプライン内のいずれかでLLMを統合することが、高品質な音声翻訳にとって不可欠であることを示唆している。
English
As Large Language Models (LLMs) expand beyond text, integrating speech as a native modality has given rise to SpeechLLMs, which aim to translate spoken language directly, thereby bypassing traditional transcription-based pipelines. Whether this integration improves speech-to-text translation quality over established cascaded architectures, however, remains an open question. We present Hearing to Translate, the first comprehensive test suite rigorously benchmarking 5 state-of-the-art SpeechLLMs against 16 strong direct and cascade systems that couple leading speech foundation models (SFM), with multilingual LLMs. Our analysis spans 16 benchmarks, 13 language pairs, and 9 challenging conditions, including disfluent, noisy, and long-form speech. Across this extensive evaluation, we find that cascaded systems remain the most reliable overall, while current SpeechLLMs only match cascades in selected settings and SFMs lag behind both, highlighting that integrating an LLM, either within the model or in a pipeline, is essential for high-quality speech translation.