От пассивного наблюдателя к активному критику: обучение с подкреплением порождает процессуальное мышление в роботизированном манипулировании

Аннотация

Точный контроль процесса остается ключевой проблемой для роботизированных манипуляций с длительным горизонтом планирования. Основное узкое место заключается в том, что современные видео-MLLM, обученные преимущественно по парадигме контролируемой тонкой настройки (SFT), функционируют как пассивные «наблюдатели», которые распознают текущие события, а не оценивают текущее состояние относительно конечной цели задачи. В данной статье мы представляем PRIMO R1 — фреймворк на 7 миллиардах параметров, который преобразует видео-MLLM в активных «критиков». Мы используем обучение с подкреплением на основе результата, чтобы стимулировать явное построение цепочек рассуждений для оценки прогресса. Кроме того, наша архитектура формирует структурированный временной вход, явно связывая видео-последовательность между изображениями начального и текущего состояний. Подкрепленные предложенными набором данных PRIMO и бенчмарком, масштабные эксперименты в разнообразных внутридоменных средах и внедоменных сценариях реального мира с гуманоидными роботами демонстрируют, что PRIMO R1 достигает наилучшей производительности. Количественно наша 7B-модель обеспечивает 50%-ное снижение средней абсолютной ошибки по сравнению со специализированными базовыми моделями рассуждений, демонстрируя значительное улучшение относительной точности по сравнению с общими MLLM масштаба 72B. Более того, PRIMO R1 демонстрирует сильную способность к нулевому обобщению на сложных задачах обнаружения сбоев. Мы устанавливаем наилучший результат на бенчмарке RoboFail с точностью 67.0%, превосходя закрытые модели, такие как OpenAI o1, на 6.0%.

English

Accurate process supervision remains a critical challenge for long-horizon robotic manipulation. A primary bottleneck is that current video MLLMs, trained primarily under a Supervised Fine-Tuning (SFT) paradigm, function as passive "Observers" that recognize ongoing events rather than evaluating the current state relative to the final task goal. In this paper, we introduce PRIMO R1 (Process Reasoning Induced Monitoring), a 7B framework that transforms video MLLMs into active "Critics". We leverage outcome-based Reinforcement Learning to incentivize explicit Chain-of-Thought generation for progress estimation. Furthermore, our architecture constructs a structured temporal input by explicitly anchoring the video sequence between initial and current state images. Supported by the proposed PRIMO Dataset and Benchmark, extensive experiments across diverse in-domain environments and out-of-domain real-world humanoid scenarios demonstrate that PRIMO R1 achieves state-of-the-art performance. Quantitatively, our 7B model achieves a 50% reduction in the mean absolute error of specialized reasoning baselines, demonstrating significant relative accuracy improvements over 72B-scale general MLLMs. Furthermore, PRIMO R1 exhibits strong zero-shot generalization on difficult failure detection tasks. We establish state-of-the-art performance on RoboFail benchmark with 67.0% accuracy, surpassing closed-source models like OpenAI o1 by 6.0%.