ChatPaper.aiChatPaper

Omni-R1: Auf dem Weg zu einem einheitlichen generativen Paradigma für multimodales Denken

Omni-R1: Towards the Unified Generative Paradigm for Multimodal Reasoning

January 14, 2026
papers.authors: Dongjie Cheng, Yongqi Li, Zhixin Ma, Hongru Cai, Yupeng Hu, Wenjie Wang, Liqiang Nie, Wenjie Li
cs.AI

papers.abstract

Multimodale Large Language Models (MLLMs) verzeichnen bedeutende Fortschritte im multimodalen Reasoning. Frühe Ansätze konzentrieren sich auf rein textbasiertes Reasoning. Neuere Studien haben multimodale Informationen in die Reasoning-Schritte integriert; jedoch folgen sie oft einem einzigen, aufgabenspezifischen Reasoning-Muster, was ihre Generalisierbarkeit über verschiedene multimodale Aufgaben hinweg einschränkt. Tatsächlich gibt es zahlreiche multimodale Aufgaben, die unterschiedliche Reasoning-Fähigkeiten erfordern, wie das Hineinzoomen in eine bestimmte Region oder das Markieren eines Objekts innerhalb eines Bildes. Um dies zu adressieren, schlagen wir ein einheitliches generatives multimodales Reasoning vor, das verschiedene multimodale Reasoning-Fähigkeiten vereinheitlicht, indem es während des Reasoning-Prozesses Zwischenbilder generiert. Wir instanziieren dieses Paradigma mit Omni-R1, einem zweistufigen SFT+RL-Framework, das einen Perzeptions-Alignment-Loss und eine Perzeptions-Belohnung umfasst und dadurch funktionale Bildgenerierung ermöglicht. Zusätzlich führen wir Omni-R1-Zero ein, das den Bedarf an multimodalen Annotationen eliminiert, indem es schrittweise Visualisierungen aus rein textbasierten Reasoning-Daten bootstrappt. Empirische Ergebnisse zeigen, dass Omni-R1 einheitliches generatives Reasoning über eine breite Palette multimodaler Aufgaben hinweg erreicht und Omni-R1-Zero im Durchschnitt mit Omni-R1 gleichziehen oder es sogar übertreffen kann, was eine vielversprechende Richtung für generatives multimodales Reasoning aufzeigt.
English
Multimodal Large Language Models (MLLMs) are making significant progress in multimodal reasoning. Early approaches focus on pure text-based reasoning. More recent studies have incorporated multimodal information into the reasoning steps; however, they often follow a single task-specific reasoning pattern, which limits their generalizability across various multimodal tasks. In fact, there are numerous multimodal tasks requiring diverse reasoning skills, such as zooming in on a specific region or marking an object within an image. To address this, we propose unified generative multimodal reasoning, which unifies diverse multimodal reasoning skills by generating intermediate images during the reasoning process. We instantiate this paradigm with Omni-R1, a two-stage SFT+RL framework featuring perception alignment loss and perception reward, thereby enabling functional image generation. Additionally, we introduce Omni-R1-Zero, which eliminates the need for multimodal annotations by bootstrapping step-wise visualizations from text-only reasoning data. Empirical results show that Omni-R1 achieves unified generative reasoning across a wide range of multimodal tasks, and Omni-R1-Zero can match or even surpass Omni-R1 on average, suggesting a promising direction for generative multimodal reasoning.
PDF11January 16, 2026