ChatPaper.aiChatPaper

OmniFusion: Simultane mehrsprachige multimodale Übersetzungen durch modulare Fusion

OmniFusion: Simultaneous Multilingual Multimodal Translations via Modular Fusion

November 28, 2025
papers.authors: Sai Koneru, Matthias Huck, Jan Niehues
cs.AI

papers.abstract

Bei textbasierten Open-Source-Großsprachmodellen (LLMs) für die Übersetzung wurden erhebliche Fortschritte mit besserer Sprachabdeckung und Qualität erzielt. Diese Modelle können jedoch nur in Kaskadenpipelines für Sprachübersetzung (ST) eingesetzt werden, indem zunächst automatische Spracherkennung gefolgt von Übersetzung durchgeführt wird. Dies führt zu zusätzlicher Latenz, die besonders bei simultaner Sprachübersetzung (SimulST) kritisch ist, und verhindert, dass das Modell multimodalen Kontext – wie beispielsweise Bilder – zur Disambiguierung nutzen kann. Vortrainierte multimodale Basismodelle (MMFMs) verfügen bereits über starke Wahrnehmungs- und Reasoning-Fähigkeiten über mehrere Modalitäten hinweg, weisen jedoch generell eine geringere multilinguale Abdeckung und spezialisierte Übersetzungsleistung als dedizierte Übersetzungs-LLMs auf. Um ein effektives multimodales Übersetzungssystem zu entwickeln, schlagen wir einen End-to-End-Ansatz vor, der MMFMs mit Übersetzungs-LLMs fusioniert. Wir führen eine neuartige Fusionsstrategie ein, die versteckte Zustände aus mehreren Schichten eines vortrainierten MMFM mit einem Übersetzungs-LLM verbindet und gemeinsames End-to-End-Training ermöglicht. Das resultierende Modell OmniFusion, basierend auf Omni 2.5-7B als MMFM und SeedX PPO-7B als Übersetzungs-LLM, kann Sprach-zu-Text-, Sprach-und-Bild-zu-Text- sowie Text-und-Bild-zu-Text-Übersetzungen durchführen. Experimente zeigen, dass OmniFusion sowohl Audio- als auch visuelle Eingaben effektiv nutzt, eine Reduzierung der Latenz um 1 Sekunde in SimulST im Vergleich zu Kaskadenpipelines erreicht und gleichzeitig die allgemeine Übersetzungsqualität verbessert. Der Code ist verfügbar unter https://github.com/saikoneru/OmniFusion.
English
There has been significant progress in open-source text-only translation large language models (LLMs) with better language coverage and quality. However, these models can be only used in cascaded pipelines for speech translation (ST), performing automatic speech recognition first followed by translation. This introduces additional latency, which is particularly critical in simultaneous ST (SimulST), and prevents the model from exploiting multimodal context, such as images, which can aid disambiguation. Pretrained multimodal foundation models (MMFMs) already possess strong perception and reasoning capabilities across multiple modalities, but generally lack the multilingual coverage and specialized translation performance of dedicated translation LLMs. To build an effective multimodal translation system, we propose an end-to-end approach that fuses MMFMs with translation LLMs. We introduce a novel fusion strategy that connects hidden states from multiple layers of a pretrained MMFM to a translation LLM, enabling joint end-to-end training. The resulting model, OmniFusion, built on Omni 2.5-7B as the MMFM and SeedX PPO-7B as the translation LLM, can perform speech-to-text, speech-and-image-to-text, and text-and-image-to-text translation. Experiments demonstrate that OmniFusion effectively leverages both audio and visual inputs, achieves a 1-second latency reduction in SimulST compared to cascaded pipelines and also improves the overall translation qualityCode is available at https://github.com/saikoneru/OmniFusion.
PDF01December 3, 2025