ChatPaper.aiChatPaper

Omni-R1: Hacia el Paradigma Generativo Unificado para el Razonamiento Multimodal

Omni-R1: Towards the Unified Generative Paradigm for Multimodal Reasoning

January 14, 2026
Autores: Dongjie Cheng, Yongqi Li, Zhixin Ma, Hongru Cai, Yupeng Hu, Wenjie Wang, Liqiang Nie, Wenjie Li
cs.AI

Resumen

Los Modelos de Lenguaje Grandes Multimodales (MLLMs) están logrando avances significativos en el razonamiento multimodal. Los enfoques iniciales se centraban en el razonamiento basado únicamente en texto. Estudios más recientes han incorporado información multimodal en los pasos de razonamiento; sin embargo, a menudo siguen un patrón de razonamiento único y específico para cada tarea, lo que limita su generalización en diversas tareas multimodales. De hecho, existen numerosas tareas multimodales que requieren habilidades de razonamiento diversas, como hacer zoom en una región específica o marcar un objeto dentro de una imagen. Para abordar esto, proponemos el razonamiento multimodal generativo unificado, que unifica diversas habilidades de razonamiento multimodal mediante la generación de imágenes intermedias durante el proceso de razonamiento. Instanciamos este paradigma con Omni-R1, un marco de trabajo SFT+RL de dos etapas que incluye una pérdida de alineación perceptual y una recompensa perceptual, permitiendo así la generación funcional de imágenes. Adicionalmente, presentamos Omni-R1-Zero, que elimina la necesidad de anotaciones multimodales mediante el *bootstrapping* de visualizaciones paso a paso a partir de datos de razonamiento basados solo en texto. Los resultados empíricos muestran que Omni-R1 logra un razonamiento generativo unificado en una amplia gama de tareas multimodales, y Omni-R1-Zero puede igualar o incluso superar a Omni-R1 en promedio, lo que sugiere una dirección prometedora para el razonamiento multimodal generativo.
English
Multimodal Large Language Models (MLLMs) are making significant progress in multimodal reasoning. Early approaches focus on pure text-based reasoning. More recent studies have incorporated multimodal information into the reasoning steps; however, they often follow a single task-specific reasoning pattern, which limits their generalizability across various multimodal tasks. In fact, there are numerous multimodal tasks requiring diverse reasoning skills, such as zooming in on a specific region or marking an object within an image. To address this, we propose unified generative multimodal reasoning, which unifies diverse multimodal reasoning skills by generating intermediate images during the reasoning process. We instantiate this paradigm with Omni-R1, a two-stage SFT+RL framework featuring perception alignment loss and perception reward, thereby enabling functional image generation. Additionally, we introduce Omni-R1-Zero, which eliminates the need for multimodal annotations by bootstrapping step-wise visualizations from text-only reasoning data. Empirical results show that Omni-R1 achieves unified generative reasoning across a wide range of multimodal tasks, and Omni-R1-Zero can match or even surpass Omni-R1 on average, suggesting a promising direction for generative multimodal reasoning.
PDF11January 16, 2026