Omni-R1: Rumo ao Paradigma Generativo Unificado para Raciocínio Multimodal

Resumo

Os Modelos de Linguagem de Grande Porte Multimodais (MLLMs) estão a fazer progressos significativos no raciocínio multimodal. As abordagens iniciais centravam-se no raciocínio puramente baseado em texto. Estudos mais recentes incorporaram informação multimodal nas etapas de raciocínio; no entanto, seguem frequentemente um padrão de raciocínio único e específico para cada tarefa, o que limita a sua generalização em várias tarefas multimodais. Na verdade, existem inúmeras tarefas multimodais que exigem competências de raciocínio diversificadas, como ampliar uma região específica ou marcar um objeto dentro de uma imagem. Para resolver isto, propomos um raciocínio multimodal generativo unificado, que unifica diversas competências de raciocínio multimodal através da geração de imagens intermédias durante o processo de raciocínio. Instanciamos este paradigma com o Omni-R1, uma estrutura SFT+RL em duas etapas que inclui uma perda de alinhamento perceptual e uma recompensa perceptual, permitindo assim a geração funcional de imagens. Adicionalmente, introduzimos o Omni-R1-Zero, que elimina a necessidade de anotações multimodais ao obter visualizações passo a passo a partir de dados de raciocínio apenas textuais. Resultados empíricos mostram que o Omni-R1 alcança um raciocínio generativo unificado numa vasta gama de tarefas multimodais, e o Omni-R1-Zero pode igualar ou até superar em média o Omni-R1, sugerindo uma direção promissora para o raciocínio multimodal generativo.

English

Multimodal Large Language Models (MLLMs) are making significant progress in multimodal reasoning. Early approaches focus on pure text-based reasoning. More recent studies have incorporated multimodal information into the reasoning steps; however, they often follow a single task-specific reasoning pattern, which limits their generalizability across various multimodal tasks. In fact, there are numerous multimodal tasks requiring diverse reasoning skills, such as zooming in on a specific region or marking an object within an image. To address this, we propose unified generative multimodal reasoning, which unifies diverse multimodal reasoning skills by generating intermediate images during the reasoning process. We instantiate this paradigm with Omni-R1, a two-stage SFT+RL framework featuring perception alignment loss and perception reward, thereby enabling functional image generation. Additionally, we introduce Omni-R1-Zero, which eliminates the need for multimodal annotations by bootstrapping step-wise visualizations from text-only reasoning data. Empirical results show that Omni-R1 achieves unified generative reasoning across a wide range of multimodal tasks, and Omni-R1-Zero can match or even surpass Omni-R1 on average, suggesting a promising direction for generative multimodal reasoning.

Omni-R1: Rumo ao Paradigma Generativo Unificado para Raciocínio Multimodal

Omni-R1: Towards the Unified Generative Paradigm for Multimodal Reasoning

Resumo

Support