ChatPaper.aiChatPaper

OmniFusion: Traduções Multimodais Multilíngues Simultâneas via Fusão Modular

OmniFusion: Simultaneous Multilingual Multimodal Translations via Modular Fusion

November 28, 2025
Autores: Sai Koneru, Matthias Huck, Jan Niehues
cs.AI

Resumo

Houve progressos significativos em modelos de linguagem grandes (LLMs) de tradução apenas de texto de código aberto, com melhor cobertura linguística e qualidade. No entanto, estes modelos só podem ser usados em pipelines em cascata para tradução de fala (ST), realizando primeiro o reconhecimento automático de fala seguido de tradução. Isto introduz uma latência adicional, que é particularmente crítica na tradução simultânea de fala (SimulST), e impede o modelo de explorar contexto multimodal, como imagens, que pode auxiliar na desambiguação. Os modelos de base multimodais pré-treinados (MMFMs) já possuem fortes capacidades de perceção e raciocínio através de múltiplas modalidades, mas geralmente carecem da cobertura multilíngue e do desempenho especializado em tradução dos LLMs de tradução dedicados. Para construir um sistema de tradução multimodal eficaz, propomos uma abordagem de ponta a ponta que funde MMFMs com LLMs de tradução. Introduzimos uma nova estratégia de fusão que conecta estados ocultos de múltiplas camadas de um MMFM pré-treinado a um LLM de tradução, permitindo um treino conjunto de ponta a ponta. O modelo resultante, OmniFusion, construído com base no Omni 2.5-7B como MMFM e no SeedX PPO-7B como LLM de tradução, pode realizar tradução de fala-para-texto, fala-e-imagem-para-texto e texto-e-imagem-para-texto. Experiências demonstram que o OmniFusion aproveita eficazmente tanto os inputs de áudio como visuais, alcança uma redução de latência de 1 segundo na SimulST em comparação com os pipelines em cascata e também melhora a qualidade geral da tradução. O código está disponível em https://github.com/saikoneru/OmniFusion.
English
There has been significant progress in open-source text-only translation large language models (LLMs) with better language coverage and quality. However, these models can be only used in cascaded pipelines for speech translation (ST), performing automatic speech recognition first followed by translation. This introduces additional latency, which is particularly critical in simultaneous ST (SimulST), and prevents the model from exploiting multimodal context, such as images, which can aid disambiguation. Pretrained multimodal foundation models (MMFMs) already possess strong perception and reasoning capabilities across multiple modalities, but generally lack the multilingual coverage and specialized translation performance of dedicated translation LLMs. To build an effective multimodal translation system, we propose an end-to-end approach that fuses MMFMs with translation LLMs. We introduce a novel fusion strategy that connects hidden states from multiple layers of a pretrained MMFM to a translation LLM, enabling joint end-to-end training. The resulting model, OmniFusion, built on Omni 2.5-7B as the MMFM and SeedX PPO-7B as the translation LLM, can perform speech-to-text, speech-and-image-to-text, and text-and-image-to-text translation. Experiments demonstrate that OmniFusion effectively leverages both audio and visual inputs, achieves a 1-second latency reduction in SimulST compared to cascaded pipelines and also improves the overall translation qualityCode is available at https://github.com/saikoneru/OmniFusion.
PDF12February 26, 2026