Da osservatore passivo a critico attivo: l'apprendimento per rinforzo stimola il ragionamento procedurale nella manipolazione robotica

Abstract

La supervisione accurata dei processi rimane una sfida critica per la manipolazione robotica a lungo termine. Il collo di bottiglia principale è che gli attuali MLLM video, addestrati principalmente secondo un paradigma di Supervised Fine-Tuning (SFT), funzionano come "Osservatori" passivi che riconoscono gli eventi in corso, piuttosto che valutare lo stato corrente rispetto all'obiettivo finale del compito. In questo articolo, introduciamo PRIMO R1 (Process Reasoning Induced Monitoring), un framework da 7B che trasforma gli MLLM video in "Critici" attivi. Sfruttiamo il Reinforcement Learning basato sugli outcome per incentivare un'esplicita generazione di una Catena di Pensiero (Chain-of-Thought) per la stima del progresso. Inoltre, la nostra architettura costruisce un input temporale strutturato ancorando esplicitamente la sequenza video tra le immagini dello stato iniziale e di quello corrente. Supportato dal Dataset e Benchmark PRIMO proposti, esperimenti estensivi in diversi ambienti in-dominio e scenari umanoidi reali out-of-domain dimostrano che PRIMO R1 raggiunge prestazioni allo stato dell'arte. Quantitativamente, il nostro modello da 7B ottiene una riduzione del 50% nell'errore assoluto medio rispetto ai baseline di ragionamento specializzati, dimostrando miglioramenti di accuratezza relativa significativi rispetto a MLLM generali di scala 72B. Inoltre, PRIMO R1 mostra una forte generalizzazione zero-shot su compiti difficili di rilevamento dei guasti. Stabiliamo prestazioni allo stato dell'arte sul benchmark RoboFail con un'accuratezza del 67.0%, superando modelli closed-source come OpenAI o1 del 6.0%.

English

Accurate process supervision remains a critical challenge for long-horizon robotic manipulation. A primary bottleneck is that current video MLLMs, trained primarily under a Supervised Fine-Tuning (SFT) paradigm, function as passive "Observers" that recognize ongoing events rather than evaluating the current state relative to the final task goal. In this paper, we introduce PRIMO R1 (Process Reasoning Induced Monitoring), a 7B framework that transforms video MLLMs into active "Critics". We leverage outcome-based Reinforcement Learning to incentivize explicit Chain-of-Thought generation for progress estimation. Furthermore, our architecture constructs a structured temporal input by explicitly anchoring the video sequence between initial and current state images. Supported by the proposed PRIMO Dataset and Benchmark, extensive experiments across diverse in-domain environments and out-of-domain real-world humanoid scenarios demonstrate that PRIMO R1 achieves state-of-the-art performance. Quantitatively, our 7B model achieves a 50% reduction in the mean absolute error of specialized reasoning baselines, demonstrating significant relative accuracy improvements over 72B-scale general MLLMs. Furthermore, PRIMO R1 exhibits strong zero-shot generalization on difficult failure detection tasks. We establish state-of-the-art performance on RoboFail benchmark with 67.0% accuracy, surpassing closed-source models like OpenAI o1 by 6.0%.