Omni-R1: к унифицированной генеративной парадигме мультимодального мышления
Omni-R1: Towards the Unified Generative Paradigm for Multimodal Reasoning
January 14, 2026
Авторы: Dongjie Cheng, Yongqi Li, Zhixin Ma, Hongru Cai, Yupeng Hu, Wenjie Wang, Liqiang Nie, Wenjie Li
cs.AI
Аннотация
Мультимодальные большие языковые модели (MLLM) демонстрируют значительный прогресс в области мультимодальных рассуждений. Ранние подходы были сосредоточены на чисто текстовых рассуждениях. Более поздние исследования стали включать мультимодальную информацию в шаги рассуждения; однако они часто следуют единому, специфичному для задачи шаблону рассуждений, что ограничивает их обобщающую способность для различных мультимодальных задач. На самом деле, существует множество мультимодальных задач, требующих разнообразных навыков рассуждения, таких как увеличение конкретной области или выделение объекта на изображении. Для решения этой проблемы мы предлагаем унифицированное генеративное мультимодальное рассуждение, которое объединяет различные навыки мультимодальных рассуждений за счёт генерации промежуточных изображений в процессе рассуждения. Мы реализуем эту парадигму в модели Omni-R1 — двухэтапной структуре SFT+RL с функцией потерь на выравнивание восприятия и вознаграждением за восприятие, что позволяет осуществлять функциональную генерацию изображений. Кроме того, мы представляем Omni-R1-Zero, которая устраняет необходимость в мультимодальных разметках, используя бутстрэппинг пошаговых визуализаций из данных текстовых рассуждений. Экспериментальные результаты показывают, что Omni-R1 достигает унифицированного генеративного рассуждения для широкого спектра мультимодальных задач, а Omni-R1-Zero в среднем может соответствовать или даже превосходить Omni-R1, что указывает на перспективное направление для генеративных мультимодальных рассуждений.
English
Multimodal Large Language Models (MLLMs) are making significant progress in multimodal reasoning. Early approaches focus on pure text-based reasoning. More recent studies have incorporated multimodal information into the reasoning steps; however, they often follow a single task-specific reasoning pattern, which limits their generalizability across various multimodal tasks. In fact, there are numerous multimodal tasks requiring diverse reasoning skills, such as zooming in on a specific region or marking an object within an image. To address this, we propose unified generative multimodal reasoning, which unifies diverse multimodal reasoning skills by generating intermediate images during the reasoning process. We instantiate this paradigm with Omni-R1, a two-stage SFT+RL framework featuring perception alignment loss and perception reward, thereby enabling functional image generation. Additionally, we introduce Omni-R1-Zero, which eliminates the need for multimodal annotations by bootstrapping step-wise visualizations from text-only reasoning data. Empirical results show that Omni-R1 achieves unified generative reasoning across a wide range of multimodal tasks, and Omni-R1-Zero can match or even surpass Omni-R1 on average, suggesting a promising direction for generative multimodal reasoning.