Vom passiven Beobachter zum aktiven Kritiker: Verstärkungslernen ermöglicht prozessbasiertes Denken für robotische Manipulation

Zusammenfassung

Eine genaue Prozessüberwachung bleibt eine kritische Herausforderung für langfristige robotische Manipulationsaufgaben. Ein primärer Engpass ist, dass aktuelle Video-MLLMs, die hauptsächlich nach einem Supervised Fine-Tuning (SFT)-Paradigma trainiert werden, als passive "Beobachter" fungieren, die laufende Ereignisse erkennen, anstatt den aktuellen Zustand relativ zum endgültigen Aufgabenziele zu bewerten. In diesem Artikel stellen wir PRIMO R1 (Process Reasoning Induced Monitoring) vor, ein 7B-Framework, das Video-MLLMs in aktive "Kritiker" verwandelt. Wir nutzen ergebnisbasiertes Reinforcement Learning, um eine explizite Chain-of-Thought-Generierung für die Fortschrittsbewertung zu incentivieren. Darüber hinaus konstruiert unsere Architektur einen strukturierten temporalen Input, indem die Videosequenz explizit zwischen Anfangs- und aktuellen Zustandsbildern verankert wird. Gestützt durch den vorgeschlagenen PRIMO-Datensatz und Benchmark zeigen umfangreiche Experimente in verschiedenen In-Domain-Umgebungen und Out-of-Domain realen Humanoid-Szenarien, dass PRIMO R1 State-of-the-Art-Leistung erreicht. Quantitativ erzielt unser 7B-Modell eine 50%ige Reduktion des mittleren absoluten Fehlers spezialisierter Reasoning-Baselines und demonstriert damit signifikante relative Genauigkeitsverbesserungen gegenüber allgemeinen MLLMs im 72B-Maßstab. Darüber hinaus zeigt PRIMO R1 eine starke Zero-Shot-Generalisierung bei schwierigen Fehlererkennungsaufgaben. Wir etablieren State-of-the-Art-Leistung auf dem RoboFail-Benchmark mit 67,0 % Genauigkeit und übertreffen damit Closed-Source-Modelle wie OpenAI o1 um 6,0 %.

English

Accurate process supervision remains a critical challenge for long-horizon robotic manipulation. A primary bottleneck is that current video MLLMs, trained primarily under a Supervised Fine-Tuning (SFT) paradigm, function as passive "Observers" that recognize ongoing events rather than evaluating the current state relative to the final task goal. In this paper, we introduce PRIMO R1 (Process Reasoning Induced Monitoring), a 7B framework that transforms video MLLMs into active "Critics". We leverage outcome-based Reinforcement Learning to incentivize explicit Chain-of-Thought generation for progress estimation. Furthermore, our architecture constructs a structured temporal input by explicitly anchoring the video sequence between initial and current state images. Supported by the proposed PRIMO Dataset and Benchmark, extensive experiments across diverse in-domain environments and out-of-domain real-world humanoid scenarios demonstrate that PRIMO R1 achieves state-of-the-art performance. Quantitatively, our 7B model achieves a 50% reduction in the mean absolute error of specialized reasoning baselines, demonstrating significant relative accuracy improvements over 72B-scale general MLLMs. Furthermore, PRIMO R1 exhibits strong zero-shot generalization on difficult failure detection tasks. We establish state-of-the-art performance on RoboFail benchmark with 67.0% accuracy, surpassing closed-source models like OpenAI o1 by 6.0%.