De observador pasivo a crítico activo: el aprendizaje por refuerzo genera razonamiento de procesos para la manipulación robótica

Resumen

La supervisión precisa de procesos sigue siendo un desafío crítico para la manipulación robótica de largo horizonte. Un cuello de botella principal es que los actuales MLLMs de video, entrenados principalmente bajo un paradigma de Ajuste Fino Supervisado (SFT), funcionan como "Observadores" pasivos que reconocen eventos en curso en lugar de evaluar el estado actual en relación con el objetivo final de la tarea. En este artículo, presentamos PRIMO R1 (Monitorización Inducida por Razonamiento de Procesos), un marco de trabajo de 7B que transforma los MLLMs de video en "Críticos" activos. Aprovechamos el Aprendizaje por Refuerzo basado en resultados para incentivar la generación explícita de Cadenas de Pensamiento para la estimación del progreso. Además, nuestra arquitectura construye una entrada temporal estructurada anclando explícitamente la secuencia de video entre imágenes del estado inicial y del estado actual. Respaldado por el Conjunto de Datos y Benchmark PRIMO propuesto, experimentos exhaustivos en diversos entornos de dominio interno y escenarios humanoides del mundo real de dominio externo demuestran que PRIMO R1 logra un rendimiento de vanguardia. Cuantitativamente, nuestro modelo de 7B logra una reducción del 50% en el error absoluto medio de los baselines de razonamiento especializados, demostrando mejoras significativas de precisión relativa respecto a MLLMs generales de escala 72B. Además, PRIMO R1 exhibe una fuerte generalización zero-shot en tareas difíciles de detección de fallos. Establecemos un rendimiento de vanguardia en el benchmark RoboFail con un 67.0% de precisión, superando a modelos de código cerrado como OpenAI o1 en un 6.0%.

English

Accurate process supervision remains a critical challenge for long-horizon robotic manipulation. A primary bottleneck is that current video MLLMs, trained primarily under a Supervised Fine-Tuning (SFT) paradigm, function as passive "Observers" that recognize ongoing events rather than evaluating the current state relative to the final task goal. In this paper, we introduce PRIMO R1 (Process Reasoning Induced Monitoring), a 7B framework that transforms video MLLMs into active "Critics". We leverage outcome-based Reinforcement Learning to incentivize explicit Chain-of-Thought generation for progress estimation. Furthermore, our architecture constructs a structured temporal input by explicitly anchoring the video sequence between initial and current state images. Supported by the proposed PRIMO Dataset and Benchmark, extensive experiments across diverse in-domain environments and out-of-domain real-world humanoid scenarios demonstrate that PRIMO R1 achieves state-of-the-art performance. Quantitatively, our 7B model achieves a 50% reduction in the mean absolute error of specialized reasoning baselines, demonstrating significant relative accuracy improvements over 72B-scale general MLLMs. Furthermore, PRIMO R1 exhibits strong zero-shot generalization on difficult failure detection tasks. We establish state-of-the-art performance on RoboFail benchmark with 67.0% accuracy, surpassing closed-source models like OpenAI o1 by 6.0%.