ChatPaper.aiChatPaper

OmniFusion: Traduzioni Multimodali Multilingue Simultanee tramite Fusione Modulare

OmniFusion: Simultaneous Multilingual Multimodal Translations via Modular Fusion

November 28, 2025
Autori: Sai Koneru, Matthias Huck, Jan Niehues
cs.AI

Abstract

Si è registrato un progresso significativo nei modelli linguistici di grandi dimensioni (LLM) open-source per la traduzione esclusivamente testuale, con una migliore copertura linguistica e qualità. Tuttavia, questi modelli possono essere utilizzati solo in pipeline a cascata per la traduzione vocale (ST), eseguendo prima il riconoscimento vocale automatico seguito dalla traduzione. Ciò introduce una latenza aggiuntiva, particolarmente critica nella traduzione vocale simultanea (SimulST), e impedisce al modello di sfruttare il contesto multimodale, come le immagini, che può aiutare nella disambiguazione. I modelli fondazionali multimodali preaddestrati (MMFM) possiedono già forti capacità percettive e di ragionamento su più modalità, ma generalmente mancano della copertura multilingue e delle prestazioni di traduzione specializzate degli LLM dedicati alla traduzione. Per costruire un sistema di traduzione multimodale efficace, proponiamo un approccio end-to-end che fonde gli MMFM con gli LLM per la traduzione. Introduciamo una strategia di fusione innovativa che collega gli stati nascosti di più livelli di un MMFM preaddestrato a un LLM per la traduzione, consentendo un addestramento congiunto end-to-end. Il modello risultante, OmniFusion, basato su Omni 2.5-7B come MMFM e SeedX PPO-7B come LLM per la traduzione, può eseguire traduzioni da voce a testo, da voce-e-immagine a testo e da testo-e-immagine a testo. Gli esperimenti dimostrano che OmniFusion sfrutta efficacemente sia gli input audio che visivi, raggiunge una riduzione della latenza di 1 secondo nella SimulST rispetto alle pipeline a cascata e migliora anche la qualità complessiva della traduzione. Il codice è disponibile all'indirizzo https://github.com/saikoneru/OmniFusion.
English
There has been significant progress in open-source text-only translation large language models (LLMs) with better language coverage and quality. However, these models can be only used in cascaded pipelines for speech translation (ST), performing automatic speech recognition first followed by translation. This introduces additional latency, which is particularly critical in simultaneous ST (SimulST), and prevents the model from exploiting multimodal context, such as images, which can aid disambiguation. Pretrained multimodal foundation models (MMFMs) already possess strong perception and reasoning capabilities across multiple modalities, but generally lack the multilingual coverage and specialized translation performance of dedicated translation LLMs. To build an effective multimodal translation system, we propose an end-to-end approach that fuses MMFMs with translation LLMs. We introduce a novel fusion strategy that connects hidden states from multiple layers of a pretrained MMFM to a translation LLM, enabling joint end-to-end training. The resulting model, OmniFusion, built on Omni 2.5-7B as the MMFM and SeedX PPO-7B as the translation LLM, can perform speech-to-text, speech-and-image-to-text, and text-and-image-to-text translation. Experiments demonstrate that OmniFusion effectively leverages both audio and visual inputs, achieves a 1-second latency reduction in SimulST compared to cascaded pipelines and also improves the overall translation qualityCode is available at https://github.com/saikoneru/OmniFusion.
PDF01December 3, 2025