OmniFusion: Gelijktijdige Meertalige Multimodale Vertalingen via Modulaire Fusie
OmniFusion: Simultaneous Multilingual Multimodal Translations via Modular Fusion
November 28, 2025
Auteurs: Sai Koneru, Matthias Huck, Jan Niehues
cs.AI
Samenvatting
Er is aanzienlijke vooruitgang geboekt bij open-source tekst-gebaseerde vertaalmodellen (large language models, LLM's) met een betere taaldekking en kwaliteit. Deze modellen kunnen echter alleen worden gebruikt in cascade-pijplijnen voor spraakvertaling (speech translation, ST), waarbij eerst automatische spraakherkenning wordt uitgevoerd, gevolgd door vertaling. Dit introduceert extra latentie, wat vooral kritiek is bij simultane ST (SimulST), en voorkomt dat het model gebruik kan maken van multimodale context, zoals afbeeldingen, die kunnen helpen bij disambiguatie. Voorgetrainde multimodale foundation-modellen (MMFM's) beschikken al over sterke perceptie- en redeneervaardigheden over meerdere modaliteiten, maar missen over het algemeen de meertalige dekking en gespecialiseerde vertaalprestaties van toegewijde vertaal-LLM's. Om een effectief multimodaal vertaalsysteem te bouwen, stellen we een end-to-end aanpak voor die MMFM's integreert met vertaal-LLM's. We introduceren een nieuwe fusiestrategie die verborgen toestanden uit meerdere lagen van een voorgetraind MMFM verbindt met een vertaal-LLM, waardoor gezamenlijke end-to-end training mogelijk wordt. Het resulterende model, OmniFusion, gebouwd op Omni 2.5-7B als MMFM en SeedX PPO-7B als vertaal-LLM, kan spraak-naar-tekst, spraak-en-beeld-naar-tekst, en tekst-en-beeld-naar-tekst vertaling uitvoeren. Experimenten tonen aan dat OmniFusion effectief gebruikmaakt van zowel audio- als visuele invoer, een latentievermindering van 1 seconde bereikt in SimulST vergeleken met cascade-pijplijnen en ook de algehele vertaalkwaliteit verbetert. Code is beschikbaar op https://github.com/saikoneru/OmniFusion.
English
There has been significant progress in open-source text-only translation large language models (LLMs) with better language coverage and quality. However, these models can be only used in cascaded pipelines for speech translation (ST), performing automatic speech recognition first followed by translation. This introduces additional latency, which is particularly critical in simultaneous ST (SimulST), and prevents the model from exploiting multimodal context, such as images, which can aid disambiguation. Pretrained multimodal foundation models (MMFMs) already possess strong perception and reasoning capabilities across multiple modalities, but generally lack the multilingual coverage and specialized translation performance of dedicated translation LLMs. To build an effective multimodal translation system, we propose an end-to-end approach that fuses MMFMs with translation LLMs. We introduce a novel fusion strategy that connects hidden states from multiple layers of a pretrained MMFM to a translation LLM, enabling joint end-to-end training. The resulting model, OmniFusion, built on Omni 2.5-7B as the MMFM and SeedX PPO-7B as the translation LLM, can perform speech-to-text, speech-and-image-to-text, and text-and-image-to-text translation. Experiments demonstrate that OmniFusion effectively leverages both audio and visual inputs, achieves a 1-second latency reduction in SimulST compared to cascaded pipelines and also improves the overall translation qualityCode is available at https://github.com/saikoneru/OmniFusion.