OmniFusion:モジュラー融合による多言語マルチモーダル同時翻訳
OmniFusion: Simultaneous Multilingual Multimodal Translations via Modular Fusion
November 28, 2025
著者: Sai Koneru, Matthias Huck, Jan Niehues
cs.AI
要旨
オープンソースのテキスト専用翻訳大規模言語モデル(LLM)は、言語カバレッジと品質において著しい進歩を遂げている。しかし、音声翻訳(ST)においてこれらのモデルは、音声認識を先行させた後に翻訳を行うカスケード型パイプラインでのみ使用される。これにより追加の遅延が生じ、特に同時通訳型ST(SimulST)においては深刻な問題となり、曖昧性解消に寄与し得る画像などのマルチモーダルな文脈をモデルが活用するのを妨げている。事前学習済みマルチモーダル基盤モデル(MMFM)は、複数のモダリティにわたる強力な知覚・推論能力を既に有するが、専用の翻訳LLMが持つ多言語カバレッジや特化した翻訳性能には一般に欠ける。効果的なマルチモーダル翻訳システムを構築するため、我々はMMFMと翻訳LLMを融合するエンドツーエンドのアプローチを提案する。事前学習済みMMFMの複数層から得られる隠れ状態を翻訳LLMに接続する新たな融合戦略を導入し、共同のエンドツーエンド学習を可能にする。この結果得られたモデル、OmniFusion(MMFMとしてOmni 2.5-7B、翻訳LLMとしてSeedX PPO-7Bを基盤)は、音声→テキスト、音声+画像→テキスト、テキスト+画像→テキストの翻訳を実行可能である。実験により、OmniFusionが音声入力と視覚入力を効果的に活用し、カスケード型パイプラインと比較してSimulSTにおいて1秒の遅延削減を達成するとともに、全体的な翻訳品質も向上させることが実証された。コードはhttps://github.com/saikoneru/OmniFusion で公開されている。
English
There has been significant progress in open-source text-only translation large language models (LLMs) with better language coverage and quality. However, these models can be only used in cascaded pipelines for speech translation (ST), performing automatic speech recognition first followed by translation. This introduces additional latency, which is particularly critical in simultaneous ST (SimulST), and prevents the model from exploiting multimodal context, such as images, which can aid disambiguation. Pretrained multimodal foundation models (MMFMs) already possess strong perception and reasoning capabilities across multiple modalities, but generally lack the multilingual coverage and specialized translation performance of dedicated translation LLMs. To build an effective multimodal translation system, we propose an end-to-end approach that fuses MMFMs with translation LLMs. We introduce a novel fusion strategy that connects hidden states from multiple layers of a pretrained MMFM to a translation LLM, enabling joint end-to-end training. The resulting model, OmniFusion, built on Omni 2.5-7B as the MMFM and SeedX PPO-7B as the translation LLM, can perform speech-to-text, speech-and-image-to-text, and text-and-image-to-text translation. Experiments demonstrate that OmniFusion effectively leverages both audio and visual inputs, achieves a 1-second latency reduction in SimulST compared to cascaded pipelines and also improves the overall translation qualityCode is available at https://github.com/saikoneru/OmniFusion.