ChatPaper.aiChatPaper

OmniFusion: 모듈식 융합을 통한 동시 다국어 다중 모드 번역

OmniFusion: Simultaneous Multilingual Multimodal Translations via Modular Fusion

November 28, 2025
저자: Sai Koneru, Matthias Huck, Jan Niehues
cs.AI

초록

오픈소스 텍스트 전용 번역 대규모 언어 모델(LLM)의 언어 커버리지와 품질이 크게 향상되었습니다. 그러나 이러한 모델은 음성 번역(ST)에 활용할 때 자동 음성 인식을 먼저 수행한 후 번역을 하는 캐스케이드 파이프라인으로만 사용될 수 있습니다. 이는 추가적인 대기 시간을 초래하며, 특히 동시 음성 번역(SimulST)에서 중요하게 작용하고, 모호성 해소에 도움이 될 수 있는 이미지와 같은 다중 모달 컨텍스트를 활용하는 것을 방해합니다. 사전 훈련된 다중 모달 기반 모델(MMFM)은 여러 모달에 걸쳐 강력한 인지 및 추론 능력을 보유하고 있지만, 일반적으로 전용 번역 LLM의 다국어 커버리지와 전문적인 번역 성능이 부족합니다. 효과적인 다중 모달 번역 시스템을 구축하기 위해, 우리는 MMFM과 번역 LLM을 융합하는 종단 간 접근법을 제안합니다. 우리는 사전 훈련된 MMFM의 여러 계층에서 나온 은닉 상태를 번역 LLM에 연결하여 공동의 종단 간 훈련을 가능하게 하는 새로운 융합 전략을 소개합니다. MMFM으로 Omni 2.5-7B를, 번역 LLM으로 SeedX PPO-7B를 기반으로 구축된 결과 모델인 OmniFusion은 음성-텍스트, 음성-이미지-텍스트, 텍스트-이미지-텍스트 번역을 수행할 수 있습니다. 실험 결과, OmniFusion은 오디오와 시각 입력을 효과적으로 활용하며, SimulST에서 캐스케이드 파이프라인 대비 1초의 대기 시간 감소를 달성하고 전반적인 번역 품질도 향상시킴을 보여줍니다. 코드는 https://github.com/saikoneru/OmniFusion 에서 이용할 수 있습니다.
English
There has been significant progress in open-source text-only translation large language models (LLMs) with better language coverage and quality. However, these models can be only used in cascaded pipelines for speech translation (ST), performing automatic speech recognition first followed by translation. This introduces additional latency, which is particularly critical in simultaneous ST (SimulST), and prevents the model from exploiting multimodal context, such as images, which can aid disambiguation. Pretrained multimodal foundation models (MMFMs) already possess strong perception and reasoning capabilities across multiple modalities, but generally lack the multilingual coverage and specialized translation performance of dedicated translation LLMs. To build an effective multimodal translation system, we propose an end-to-end approach that fuses MMFMs with translation LLMs. We introduce a novel fusion strategy that connects hidden states from multiple layers of a pretrained MMFM to a translation LLM, enabling joint end-to-end training. The resulting model, OmniFusion, built on Omni 2.5-7B as the MMFM and SeedX PPO-7B as the translation LLM, can perform speech-to-text, speech-and-image-to-text, and text-and-image-to-text translation. Experiments demonstrate that OmniFusion effectively leverages both audio and visual inputs, achieves a 1-second latency reduction in SimulST compared to cascaded pipelines and also improves the overall translation qualityCode is available at https://github.com/saikoneru/OmniFusion.
PDF01December 3, 2025