OmniFusion : Traductions Multimodales Multilingues Simultanées par Fusion Modulaire
OmniFusion: Simultaneous Multilingual Multimodal Translations via Modular Fusion
November 28, 2025
papers.authors: Sai Koneru, Matthias Huck, Jan Niehues
cs.AI
papers.abstract
Des progrès significatifs ont été réalisés dans les modèles de langage élargis (LLM) open-source de traduction textuelle uniquement, offrant une meilleure couverture linguistique et une meilleure qualité. Cependant, ces modèles ne peuvent être utilisés que dans des pipelines en cascade pour la traduction de la parole (ST), en effectuant d'abord la reconnaissance automatique de la parole suivie de la traduction. Cela introduit une latence supplémentaire, particulièrement critique dans la traduction simultanée de la parole (SimulST), et empêche le modèle d'exploiter le contexte multimodal, comme les images, qui peut aider à la désambiguïsation. Les modèles fondationnels multimodaux (MMFM) préentraînés possèdent déjà de solides capacités de perception et de raisonnement sur plusieurs modalités, mais manquent généralement de la couverture multilingue et des performances de traduction spécialisées des LLM dédiés à la traduction. Pour construire un système de traduction multimodal efficace, nous proposons une approche de bout en bout qui fusionne les MMFM avec les LLM de traduction. Nous introduisons une nouvelle stratégie de fusion qui connecte les états cachés de multiples couches d'un MMFM préentraîné à un LLM de traduction, permettant un apprentissage conjoint de bout en bout. Le modèle résultant, OmniFusion, construit sur Omni 2.5-7B comme MMFM et SeedX PPO-7B comme LLM de traduction, peut effectuer de la traduction parole-texte, parole-et-image-texte, et texte-et-image-texte. Les expériences démontrent qu'OmniFusion exploite efficacement les entrées audio et visuelles, atteint une réduction de latence d'une seconde en SimulST par rapport aux pipelines en cascade et améliore également la qualité de traduction globale. Le code est disponible à l'adresse https://github.com/saikoneru/OmniFusion.
English
There has been significant progress in open-source text-only translation large language models (LLMs) with better language coverage and quality. However, these models can be only used in cascaded pipelines for speech translation (ST), performing automatic speech recognition first followed by translation. This introduces additional latency, which is particularly critical in simultaneous ST (SimulST), and prevents the model from exploiting multimodal context, such as images, which can aid disambiguation. Pretrained multimodal foundation models (MMFMs) already possess strong perception and reasoning capabilities across multiple modalities, but generally lack the multilingual coverage and specialized translation performance of dedicated translation LLMs. To build an effective multimodal translation system, we propose an end-to-end approach that fuses MMFMs with translation LLMs. We introduce a novel fusion strategy that connects hidden states from multiple layers of a pretrained MMFM to a translation LLM, enabling joint end-to-end training. The resulting model, OmniFusion, built on Omni 2.5-7B as the MMFM and SeedX PPO-7B as the translation LLM, can perform speech-to-text, speech-and-image-to-text, and text-and-image-to-text translation. Experiments demonstrate that OmniFusion effectively leverages both audio and visual inputs, achieves a 1-second latency reduction in SimulST compared to cascaded pipelines and also improves the overall translation qualityCode is available at https://github.com/saikoneru/OmniFusion.