De l'observateur passif au critique actif : l'apprentissage par renforcement suscite un raisonnement processuel pour la manipulation robotique

Résumé

La supervision précise des processus demeure un défi critique pour la manipulation robotique à long terme. Un goulot d'étranglement majeur réside dans le fait que les MLLM vidéo actuels, entraînés principalement selon un paradigme de Fine-Tuning Supervisé (SFT), fonctionnent comme des "Observateurs" passifs qui reconnaissent les événements en cours plutôt que d'évaluer l'état actuel par rapport à l'objectif final de la tâche. Dans cet article, nous présentons PRIMO R1 (Process Reasoning Induced Monitoring), un cadre de 7B qui transforme les MLLM vidéo en "Critiques" actifs. Nous exploitons l'Apprentissage par Renforcement basé sur les résultats pour inciter une génération explicite de Chaîne de Raisonnement (Chain-of-Thought) afin d'estimer la progression. De plus, notre architecture construit une entrée temporelle structurée en ancrant explicitement la séquence vidéo entre des images de l'état initial et de l'état actuel. Soutenue par le jeu de données et le benchmark PRIMO proposés, des expériences approfondies dans divers environnements en domaine interne et des scénarios humanoïdes réels hors domaine démontrent que PRIMO R1 atteint des performances à la pointe de l'état de l'art. Quantitativement, notre modèle de 7B réalise une réduction de 50 % de l'erreur absolue moyenne par rapport aux bases de référence spécialisées en raisonnement, démontrant des améliorations significatives de la précision relative par rapport aux MLLM généraux de taille 72B. De plus, PRIMO R1 présente une forte généralisation zero-shot sur des tâches difficiles de détection des échecs. Nous établissons une performance de pointe sur le benchmark RoboFail avec une précision de 67,0 %, surpassant des modèles propriétaires comme OpenAI o1 de 6,0 %.

English

Accurate process supervision remains a critical challenge for long-horizon robotic manipulation. A primary bottleneck is that current video MLLMs, trained primarily under a Supervised Fine-Tuning (SFT) paradigm, function as passive "Observers" that recognize ongoing events rather than evaluating the current state relative to the final task goal. In this paper, we introduce PRIMO R1 (Process Reasoning Induced Monitoring), a 7B framework that transforms video MLLMs into active "Critics". We leverage outcome-based Reinforcement Learning to incentivize explicit Chain-of-Thought generation for progress estimation. Furthermore, our architecture constructs a structured temporal input by explicitly anchoring the video sequence between initial and current state images. Supported by the proposed PRIMO Dataset and Benchmark, extensive experiments across diverse in-domain environments and out-of-domain real-world humanoid scenarios demonstrate that PRIMO R1 achieves state-of-the-art performance. Quantitatively, our 7B model achieves a 50% reduction in the mean absolute error of specialized reasoning baselines, demonstrating significant relative accuracy improvements over 72B-scale general MLLMs. Furthermore, PRIMO R1 exhibits strong zero-shot generalization on difficult failure detection tasks. We establish state-of-the-art performance on RoboFail benchmark with 67.0% accuracy, surpassing closed-source models like OpenAI o1 by 6.0%.