Van passieve waarnemer naar actieve criticus: reinforcement learning ontlokt procesredenering voor robotmanipulatie

Samenvatting

Nauwkeurige procesbewaking blijft een kritieke uitdaging voor robotmanipulatie op lange termijn. Een belangrijke bottleneck is dat huidige video-MLLM's, hoofdzakelijk getraind volgens een Supervised Fine-Tuning (SFT) paradigma, functioneren als passieve "waarnemers" die gebeurtenissen herkennen in plaats van de huidige staat te evalueren in relatie tot het uiteindelijke taakdoel. In dit artikel introduceren we PRIMO R1 (Process Reasoning Induced Monitoring), een 7B-framework dat video-MLLM's transformeert tot actieve "critici". We benutten outcome-gebaseerd Reinforcement Learning om expliciete Chain-of-Thought-generatie voor voortgangsschatting te stimuleren. Verder construeert onze architectuur een gestructureerde temporele invoer door de videosequentie expliciet te verankeren tussen afbeeldingen van de initiële en huidige staat. Gestuurd door de voorgestelde PRIMO-dataset en benchmark, tonen uitgebreide experimenten in diverse in-domein omgevingen en out-of-domein real-world humanoïde scenario's aan dat PRIMO R1 state-of-the-art prestaties bereikt. Kwantitatief behaalt ons 7B-model een reductie van 50% in de gemiddelde absolute fout ten opzichte van gespecialiseerde redeneer-baselines, wat significante relatieve nauwkeurigheidsverbeteringen demonstreert ten opzichte van algemene MLLM's van 72B-schaal. Bovendien vertoont PRIMO R1 sterke zero-shot generalisatie op moeilijke foutdetectietaken. We vestigen state-of-the-art prestaties op de RoboFail-benchmark met een nauwkeurigheid van 67,0%, wat gesloten modellen zoals OpenAI o1 met 6,0% overtreft.

English

Accurate process supervision remains a critical challenge for long-horizon robotic manipulation. A primary bottleneck is that current video MLLMs, trained primarily under a Supervised Fine-Tuning (SFT) paradigm, function as passive "Observers" that recognize ongoing events rather than evaluating the current state relative to the final task goal. In this paper, we introduce PRIMO R1 (Process Reasoning Induced Monitoring), a 7B framework that transforms video MLLMs into active "Critics". We leverage outcome-based Reinforcement Learning to incentivize explicit Chain-of-Thought generation for progress estimation. Furthermore, our architecture constructs a structured temporal input by explicitly anchoring the video sequence between initial and current state images. Supported by the proposed PRIMO Dataset and Benchmark, extensive experiments across diverse in-domain environments and out-of-domain real-world humanoid scenarios demonstrate that PRIMO R1 achieves state-of-the-art performance. Quantitatively, our 7B model achieves a 50% reduction in the mean absolute error of specialized reasoning baselines, demonstrating significant relative accuracy improvements over 72B-scale general MLLMs. Furthermore, PRIMO R1 exhibits strong zero-shot generalization on difficult failure detection tasks. We establish state-of-the-art performance on RoboFail benchmark with 67.0% accuracy, surpassing closed-source models like OpenAI o1 by 6.0%.