ChatPaper.aiChatPaper

Omni-R1 : Vers un paradigme génératif unifié pour le raisonnement multimodal

Omni-R1: Towards the Unified Generative Paradigm for Multimodal Reasoning

January 14, 2026
papers.authors: Dongjie Cheng, Yongqi Li, Zhixin Ma, Hongru Cai, Yupeng Hu, Wenjie Wang, Liqiang Nie, Wenjie Li
cs.AI

papers.abstract

Les modèles de langage de grande taille multimodaux (MLLM) réalisent des progrès significatifs dans le raisonnement multimodal. Les premières approches se concentraient sur un raisonnement purement textuel. Des études plus récentes ont incorporé des informations multimodales dans les étapes de raisonnement ; cependant, elles suivent souvent un schéma de raisonnement unique spécifique à une tâche, ce qui limite leur généralisabilité à diverses tâches multimodales. En réalité, de nombreuses tâches multimodales nécessitent des compétences de raisonnement diverses, telles que zoomer sur une région spécifique ou marquer un objet dans une image. Pour résoudre ce problème, nous proposons un raisonnement multimodal génératif unifié, qui unifie diverses compétences de raisonnement multimodal en générant des images intermédiaires durant le processus de raisonnement. Nous concrétisons ce paradigme avec Omni-R1, un cadre SFT+RL en deux étapes intégrant une perte d'alignement perceptif et une récompense perceptive, permettant ainsi une génération d'images fonctionnelle. De plus, nous présentons Omni-R1-Zero, qui élimine le besoin d'annotations multimodales en amorçant des visualisations étape par étape à partir de données de raisonnement textuel uniquement. Les résultats empiriques montrent qu'Omni-R1 atteint un raisonnement génératif unifié sur un large éventail de tâches multimodales, et qu'Omni-R1-Zero peut égaler voire surpasser Omni-R1 en moyenne, suggérant une voie prometteuse pour le raisonnement multimodal génératif.
English
Multimodal Large Language Models (MLLMs) are making significant progress in multimodal reasoning. Early approaches focus on pure text-based reasoning. More recent studies have incorporated multimodal information into the reasoning steps; however, they often follow a single task-specific reasoning pattern, which limits their generalizability across various multimodal tasks. In fact, there are numerous multimodal tasks requiring diverse reasoning skills, such as zooming in on a specific region or marking an object within an image. To address this, we propose unified generative multimodal reasoning, which unifies diverse multimodal reasoning skills by generating intermediate images during the reasoning process. We instantiate this paradigm with Omni-R1, a two-stage SFT+RL framework featuring perception alignment loss and perception reward, thereby enabling functional image generation. Additionally, we introduce Omni-R1-Zero, which eliminates the need for multimodal annotations by bootstrapping step-wise visualizations from text-only reasoning data. Empirical results show that Omni-R1 achieves unified generative reasoning across a wide range of multimodal tasks, and Omni-R1-Zero can match or even surpass Omni-R1 on average, suggesting a promising direction for generative multimodal reasoning.
PDF11January 16, 2026