受動的観察者から能動的批評家へ:強化学習によるロボットマニピュレーションのためのプロセス推論の実現
From Passive Observer to Active Critic: Reinforcement Learning Elicits Process Reasoning for Robotic Manipulation
March 16, 2026
著者: Yibin Liu, Yaxing Lyu, Daqi Gao, Zhixuan Liang, Weiliang Tang, Shilong Mu, Xiaokang Yang, Yao Mu
cs.AI
要旨
正確なプロセス監視は、長期的なロボットマニピュレーションにおける重要な課題であり続けている。主なボトルネックは、現在のビデオMLLMが主に教師ありファインチューニング(SFT)のパラダイムで訓練され、最終的なタスク目標に対する現在の状態を評価するのではなく、進行中のイベントを認識する受動的な「観察者」として機能することである。本論文では、ビデオMLLMを能動的な「批評家」へと変換する7Bパラメータのフレームワーク、PRIMO R1(Process Reasoning Induced Monitoring)を提案する。我々は、進捗推定のための明示的な連鎖思考生成を促進するため、結果ベースの強化学習を活用する。さらに、我々のアーキテクチャは、初期状態と現在の状態の画像でビデオシーケンスを明示的に固定化することにより、構造化された時間的入力を構築する。提案するPRIMOデータセットとベンチマークに支えられ、多様なドメイン内環境およびドメイン外の実世界ヒューマノイドシナリオにおける広範な実験を通じて、PRIMO R1が最先端の性能を達成することを実証する。定量的には、我々の7Bモデルは、専門的な推論ベースラインと比較して平均絶対誤差を50%削減し、72Bスケールの汎用MLLMを上回る大幅な相対的な精度向上を示す。さらに、PRIMO R1は、困難な故障検出タスクにおいて強力なゼロショット一般化能力を発揮する。RoboFailベンチマークにおいて67.0%の精度で最先端の性能を確立し、OpenAI o1のようなクローズドソースモデルを6.0%上回った。
English
Accurate process supervision remains a critical challenge for long-horizon robotic manipulation. A primary bottleneck is that current video MLLMs, trained primarily under a Supervised Fine-Tuning (SFT) paradigm, function as passive "Observers" that recognize ongoing events rather than evaluating the current state relative to the final task goal. In this paper, we introduce PRIMO R1 (Process Reasoning Induced Monitoring), a 7B framework that transforms video MLLMs into active "Critics". We leverage outcome-based Reinforcement Learning to incentivize explicit Chain-of-Thought generation for progress estimation. Furthermore, our architecture constructs a structured temporal input by explicitly anchoring the video sequence between initial and current state images. Supported by the proposed PRIMO Dataset and Benchmark, extensive experiments across diverse in-domain environments and out-of-domain real-world humanoid scenarios demonstrate that PRIMO R1 achieves state-of-the-art performance. Quantitatively, our 7B model achieves a 50% reduction in the mean absolute error of specialized reasoning baselines, demonstrating significant relative accuracy improvements over 72B-scale general MLLMs. Furthermore, PRIMO R1 exhibits strong zero-shot generalization on difficult failure detection tasks. We establish state-of-the-art performance on RoboFail benchmark with 67.0% accuracy, surpassing closed-source models like OpenAI o1 by 6.0%.