Omni-R1: マルチモーダル推論のための統合的生成パラダイムに向けて
Omni-R1: Towards the Unified Generative Paradigm for Multimodal Reasoning
January 14, 2026
著者: Dongjie Cheng, Yongqi Li, Zhixin Ma, Hongru Cai, Yupeng Hu, Wenjie Wang, Liqiang Nie, Wenjie Li
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLM)は、マルチモーダル推論において著しい進展を遂げている。初期のアプローチは純粋にテキストベースの推論に焦点を当てていた。より最近の研究では、推論ステップにマルチモーダル情報を組み込んでいるが、それらはしばしば単一のタスク特化型の推論パターンに従っており、様々なマルチモーダルタスク間での汎化性が制限されている。実際、画像内の特定領域を拡大したり、オブジェクトをマーキングしたりするなど、多様な推論スキルを必要とするマルチモーダルタスクは数多い。この問題に対処するため、我々は推論プロセスの中間段階で画像を生成することにより、多様なマルチモーダル推論スキルを統合する**生成的マルチモーダル統一推論**を提案する。このパラダイムを、知覚アライメント損失と知覚報酬を特徴とする二段階のSFT+RLフレームワークであるOmni-R1として具体化し、機能的な画像生成を可能にする。さらに、テキストのみの推論データから段階的な可視化をブートストラップすることでマルチモーダルアノテーションを不要とするOmni-R1-Zeroを導入する。実験結果は、Omni-R1が多様なマルチモーダルタスクにわたる生成的統一推論を実現すること、そしてOmni-R1-Zeroが平均的にOmni-R1に匹敵あるいは凌駕する性能を示すことを実証しており、これは生成的マルチモーダル推論の有望な方向性を示唆している。
English
Multimodal Large Language Models (MLLMs) are making significant progress in multimodal reasoning. Early approaches focus on pure text-based reasoning. More recent studies have incorporated multimodal information into the reasoning steps; however, they often follow a single task-specific reasoning pattern, which limits their generalizability across various multimodal tasks. In fact, there are numerous multimodal tasks requiring diverse reasoning skills, such as zooming in on a specific region or marking an object within an image. To address this, we propose unified generative multimodal reasoning, which unifies diverse multimodal reasoning skills by generating intermediate images during the reasoning process. We instantiate this paradigm with Omni-R1, a two-stage SFT+RL framework featuring perception alignment loss and perception reward, thereby enabling functional image generation. Additionally, we introduce Omni-R1-Zero, which eliminates the need for multimodal annotations by bootstrapping step-wise visualizations from text-only reasoning data. Empirical results show that Omni-R1 achieves unified generative reasoning across a wide range of multimodal tasks, and Omni-R1-Zero can match or even surpass Omni-R1 on average, suggesting a promising direction for generative multimodal reasoning.