De Observador Passivo a Crítico Ativo: O Aprendizado por Reforço Obtém Raciocínio de Processo para Manipulação Robótica

Resumo

A supervisão precisa do processo continua a ser um desafio crítico para a manipulação robótica de longo horizonte. Um gargalo principal é que os atuais MLLMs de vídeo, treinados principalmente sob um paradigma de Ajuste Fino Supervisionado (SFT), funcionam como "Observadores" passivos que reconhecem eventos em curso, em vez de avaliar o estado atual em relação ao objetivo final da tarefa. Neste artigo, apresentamos o PRIMO R1 (Process Reasoning Induced Monitoring), uma estrutura de 7B que transforma MLLMs de vídeo em "Críticos" ativos. Aproveitamos o Aprendizado por Reforço baseado em resultado para incentivar a geração explícita de Cadeia de Pensamento para estimativa de progresso. Além disso, a nossa arquitetura constrói uma entrada temporal estruturada, ancorando explicitamente a sequência de vídeo entre imagens do estado inicial e do estado atual. Suportado pelo conjunto de dados e benchmark PRIMO propostos, extensos experimentos em diversos ambientes intra-domínio e cenários de humanoides do mundo real fora do domínio demonstram que o PRIMO R1 atinge um desempenho de ponta. Quantitativamente, o nosso modelo de 7B alcança uma redução de 50% no erro absoluto médio das linhas de base de raciocínio especializadas, demonstrando melhorias significativas de precisão relativa em relação a MLLMs gerais de escala 72B. Além disso, o PRIMO R1 exibe uma forte generalização zero-shot em tarefas difíceis de deteção de falhas. Estabelecemos um desempenho de ponta no benchmark RoboFail com 67,0% de precisão, superando modelos proprietários como o OpenAI o1 em 6,0%.

English

Accurate process supervision remains a critical challenge for long-horizon robotic manipulation. A primary bottleneck is that current video MLLMs, trained primarily under a Supervised Fine-Tuning (SFT) paradigm, function as passive "Observers" that recognize ongoing events rather than evaluating the current state relative to the final task goal. In this paper, we introduce PRIMO R1 (Process Reasoning Induced Monitoring), a 7B framework that transforms video MLLMs into active "Critics". We leverage outcome-based Reinforcement Learning to incentivize explicit Chain-of-Thought generation for progress estimation. Furthermore, our architecture constructs a structured temporal input by explicitly anchoring the video sequence between initial and current state images. Supported by the proposed PRIMO Dataset and Benchmark, extensive experiments across diverse in-domain environments and out-of-domain real-world humanoid scenarios demonstrate that PRIMO R1 achieves state-of-the-art performance. Quantitatively, our 7B model achieves a 50% reduction in the mean absolute error of specialized reasoning baselines, demonstrating significant relative accuracy improvements over 72B-scale general MLLMs. Furthermore, PRIMO R1 exhibits strong zero-shot generalization on difficult failure detection tasks. We establish state-of-the-art performance on RoboFail benchmark with 67.0% accuracy, surpassing closed-source models like OpenAI o1 by 6.0%.