ChatPaper.aiChatPaper

Усиление политики действий через прогнозирование

Reinforcing Action Policies by Prophesying

November 25, 2025
Авторы: Jiahui Zhang, Ze Huang, Chun Gu, Zipei Ma, Li Zhang
cs.AI

Аннотация

Политики Vision-Language-Action (VLA) эффективно согласуют язык, восприятие и управление роботом. Однако большинство VLA обучаются исключительно путем имитации, что приводит к переобучению на демонстрационных данных и хрупкости при сдвиге распределения. Обучение с подкреплением (RL) напрямую оптимизирует вознаграждение за задачу, тем самым устраняя это рассогласование, но взаимодействие с реальным роботом является дорогостоящим, а создание и перенос традиционных симуляторов сложны. Мы решаем проблемы как эффективности использования данных, так и устойчивости оптимизации при дообучении VLA с помощью изученной модели мира и процедуры RL, адаптированной для потоковых (flow-based) голов действий. В частности, мы представляем Prophet — унифицированную модель приведения робота в действие от действия к видео, предварительно обученную на крупномасштабных гетерогенных данных роботов для изучения переиспользуемой динамики «действие-результат». Она способна к few-shot адаптации к новым роботам, объектам и средам, создавая готовый к использованию симулятор. На основе Prophet мы усиливаем политики действий с помощью FA-GRPO (Flow-action-GRPO), который адаптирует Flow-GRPO для работы с действиями VLA, и FlowScale — пошагового перевзвешивания, которое перенормирует пошаговые градиенты в потоковой голове. Вместе Prophet, FA-GRPO и FlowScale составляют ProphRL — практичный, эффективный по данным и вычислениям путь дообучения VLA. Эксперименты показывают увеличение успешности на 5–17% на публичных бенчмарках и на 24–30% на реальных роботах для различных вариантов VLA.
English
Vision-Language-Action (VLA) policies excel in aligning language, perception, and robot control. However, most VLAs are trained purely by imitation, which overfits to demonstrations, and is brittle under distribution shift. Reinforcement learning (RL) directly optimizes task reward and thus addresses this misalignment, but real-robot interaction is expensive and conventional simulators are hard to engineer and transfer. We address both data efficiency and optimization stability in VLA post-training via a learned world model and an RL procedure tailored to flow-based action heads. Specifically, we introduce Prophet, a unified action-to-video robot actuation pretrained across large-scale, heterogeneous robot data to learn reusable action-outcome dynamics. It is able to few-shot adapt to new robots, objects, and environments, yielding a rollout-ready simulator. Upon Prophet, we reinforce action policies with Flow-action-GRPO (FA-GRPO), which adapts Flow-GRPO to operate on VLA actions, and with FlowScale, a stepwise reweighting that rescales per-step gradients in the flow head. Together, Prophet, FA-GRPO, and FlowScale constitute ProphRL, a practical, data- and compute-efficient path to VLA post-training. Experiments show 5-17% success gains on public benchmarks and 24-30% gains on real robots across different VLA variants.
PDF22December 1, 2025