ChatPaper.aiChatPaper

OmniFusion: Traducciones Multimodales Multilingües Simultáneas mediante Fusión Modular

OmniFusion: Simultaneous Multilingual Multimodal Translations via Modular Fusion

November 28, 2025
Autores: Sai Koneru, Matthias Huck, Jan Niehues
cs.AI

Resumen

Se ha logrado un progreso significativo en los modelos de lenguaje grande (LLM) de traducción de solo texto de código abierto, con mejor cobertura lingüística y calidad. Sin embargo, estos modelos solo pueden utilizarse en pipelines en cascada para la traducción de voz (ST), realizando primero el reconocimiento automático del habla seguido de la traducción. Esto introduce una latencia adicional, que es particularmente crítica en la traducción simultánea de voz (SimulST), e impide que el modelo aproveche el contexto multimodal, como las imágenes, que pueden ayudar en la desambiguación. Los modelos fundacionales multimodales preentrenados (MMFM) ya poseen fuertes capacidades de percepción y razonamiento en múltiples modalidades, pero generalmente carecen de la cobertura multilingüe y el rendimiento de traducción especializado de los LLM de traducción dedicados. Para construir un sistema de traducción multimodal efectivo, proponemos un enfoque de extremo a extremo que fusiona los MMFM con los LLM de traducción. Introducimos una novedosa estrategia de fusión que conecta los estados ocultos de múltiples capas de un MMFM preentrenado a un LLM de traducción, permitiendo un entrenamiento conjunto de extremo a extremo. El modelo resultante, OmniFusion, construido sobre Omni 2.5-7B como MMFM y SeedX PPO-7B como LLM de traducción, puede realizar traducciones de voz a texto, voz e imagen a texto, y texto e imagen a texto. Los experimentos demuestran que OmniFusion aprovecha efectivamente tanto las entradas de audio como las visuales, logra una reducción de latencia de 1 segundo en SimulST en comparación con los pipelines en cascada y también mejora la calidad general de la traducción. El código está disponible en https://github.com/saikoneru/OmniFusion.
English
There has been significant progress in open-source text-only translation large language models (LLMs) with better language coverage and quality. However, these models can be only used in cascaded pipelines for speech translation (ST), performing automatic speech recognition first followed by translation. This introduces additional latency, which is particularly critical in simultaneous ST (SimulST), and prevents the model from exploiting multimodal context, such as images, which can aid disambiguation. Pretrained multimodal foundation models (MMFMs) already possess strong perception and reasoning capabilities across multiple modalities, but generally lack the multilingual coverage and specialized translation performance of dedicated translation LLMs. To build an effective multimodal translation system, we propose an end-to-end approach that fuses MMFMs with translation LLMs. We introduce a novel fusion strategy that connects hidden states from multiple layers of a pretrained MMFM to a translation LLM, enabling joint end-to-end training. The resulting model, OmniFusion, built on Omni 2.5-7B as the MMFM and SeedX PPO-7B as the translation LLM, can perform speech-to-text, speech-and-image-to-text, and text-and-image-to-text translation. Experiments demonstrate that OmniFusion effectively leverages both audio and visual inputs, achieves a 1-second latency reduction in SimulST compared to cascaded pipelines and also improves the overall translation qualityCode is available at https://github.com/saikoneru/OmniFusion.
PDF01December 3, 2025