Omni-R1: Verso il paradigma generativo unificato per il ragionamento multimodale

Abstract

I Modelli Linguistici Multimodali di Grande Dimensione (MLLM) stanno compiendo progressi significativi nel ragionamento multimodale. Gli approcci iniziali si concentravano su un ragionamento puramente basato sul testo. Studi più recenti hanno incorporato informazioni multimodali nei passaggi di ragionamento; tuttavia, spesso seguono uno schema di ragionamento unico e specifico per un compito, il che ne limita la generalizzabilità su vari compiti multimodali. In effetti, esistono numerosi compiti multimodali che richiedono abilità di ragionamento diverse, come lo zoom su una regione specifica o la marcatura di un oggetto all'interno di un'immagine. Per affrontare questo problema, proponiamo un ragionamento multimodale generativo unificato, che unifica diverse abilità di ragionamento multimodale generando immagini intermedie durante il processo di ragionamento. Istanziamo questo paradigma con Omni-R1, un framework a due stadi SFT+RL che presenta una perdita di allineamento percettivo e una ricompensa percettiva, consentendo così la generazione di immagini funzionali. Inoltre, introduciamo Omni-R1-Zero, che elimina la necessità di annotazioni multimodali sfruttando visualizzazioni passo-passo generate a partire da dati di ragionamento esclusivamente testuali. I risultati empirici mostrano che Omni-R1 raggiunge un ragionamento generativo unificato su un'ampia gamma di compiti multimodali, e Omni-R1-Zero può eguagliare o addirittura superare Omni-R1 in media, suggerendo una direzione promettente per il ragionamento multimodale generativo.

English

Multimodal Large Language Models (MLLMs) are making significant progress in multimodal reasoning. Early approaches focus on pure text-based reasoning. More recent studies have incorporated multimodal information into the reasoning steps; however, they often follow a single task-specific reasoning pattern, which limits their generalizability across various multimodal tasks. In fact, there are numerous multimodal tasks requiring diverse reasoning skills, such as zooming in on a specific region or marking an object within an image. To address this, we propose unified generative multimodal reasoning, which unifies diverse multimodal reasoning skills by generating intermediate images during the reasoning process. We instantiate this paradigm with Omni-R1, a two-stage SFT+RL framework featuring perception alignment loss and perception reward, thereby enabling functional image generation. Additionally, we introduce Omni-R1-Zero, which eliminates the need for multimodal annotations by bootstrapping step-wise visualizations from text-only reasoning data. Empirical results show that Omni-R1 achieves unified generative reasoning across a wide range of multimodal tasks, and Omni-R1-Zero can match or even surpass Omni-R1 on average, suggesting a promising direction for generative multimodal reasoning.

Omni-R1: Verso il paradigma generativo unificato per il ragionamento multimodale

Omni-R1: Towards the Unified Generative Paradigm for Multimodal Reasoning

Abstract

Support