ChatPaper.aiChatPaper

OmniFusion: Модульное объединение для одновременного многоязычного мультимодального перевода

OmniFusion: Simultaneous Multilingual Multimodal Translations via Modular Fusion

November 28, 2025
Авторы: Sai Koneru, Matthias Huck, Jan Niehues
cs.AI

Аннотация

В области открытых текстовых моделей перевода больших языковых моделей (LLM) достигнут значительный прогресс с улучшенным языковым охватом и качеством. Однако эти модели могут использоваться лишь в каскадных конвейерах для речевого перевода (ST), выполняя сначала автоматическое распознавание речи с последующим переводом. Это вносит дополнительную задержку, что особенно критично в задачах одновременного речевого перевода (SimulST), и препятствует использованию моделью мультимодального контекста, такого как изображения, которые могут помочь в разрешении неоднозначностей. Предобученные мультимодальные фундаментальные модели (MMFM) уже обладают мощными способностями к восприятию и рассуждению в различных модальностях, но обычно уступают специализированным переводческим LLM по языковому охвату и качеству перевода. Для создания эффективной мультимодальной системы перевода мы предлагаем сквозной подход, объединяющий MMFM с переводческими LLM. Мы представляем новую стратегию фьюжна, которая соединяет скрытые состояния из нескольких слоев предобученной MMFM с переводческой LLM, обеспечивая совместное сквозное обучение. Полученная модель OmniFusion, построенная на основе Omni 2.5-7B в качестве MMFM и SeedX PPO-7B в качестве переводческой LLM, способна выполнять речевой, речево-визуальный и текстово-визуальный перевод. Эксперименты показывают, что OmniFusion эффективно использует как аудио-, так и визуальные входные данные, достигает сокращения задержки на 1 секунду в SimulST по сравнению с каскадными конвейерами и также улучшает общее качество перевода. Код доступен по адресу https://github.com/saikoneru/OmniFusion.
English
There has been significant progress in open-source text-only translation large language models (LLMs) with better language coverage and quality. However, these models can be only used in cascaded pipelines for speech translation (ST), performing automatic speech recognition first followed by translation. This introduces additional latency, which is particularly critical in simultaneous ST (SimulST), and prevents the model from exploiting multimodal context, such as images, which can aid disambiguation. Pretrained multimodal foundation models (MMFMs) already possess strong perception and reasoning capabilities across multiple modalities, but generally lack the multilingual coverage and specialized translation performance of dedicated translation LLMs. To build an effective multimodal translation system, we propose an end-to-end approach that fuses MMFMs with translation LLMs. We introduce a novel fusion strategy that connects hidden states from multiple layers of a pretrained MMFM to a translation LLM, enabling joint end-to-end training. The resulting model, OmniFusion, built on Omni 2.5-7B as the MMFM and SeedX PPO-7B as the translation LLM, can perform speech-to-text, speech-and-image-to-text, and text-and-image-to-text translation. Experiments demonstrate that OmniFusion effectively leverages both audio and visual inputs, achieves a 1-second latency reduction in SimulST compared to cascaded pipelines and also improves the overall translation qualityCode is available at https://github.com/saikoneru/OmniFusion.
PDF01December 3, 2025