ChatPaper.aiChatPaper

행동 정책 강화를 위한 예측 기반 접근법

Reinforcing Action Policies by Prophesying

November 25, 2025
저자: Jiahui Zhang, Ze Huang, Chun Gu, Zipei Ma, Li Zhang
cs.AI

초록

비전-언어-행동(VLA) 정책은 언어, 인지, 로봇 제어의 정렬에 탁월한 성능을 보입니다. 그러나 대부분의 VLA는 단순 모방을 통해 학습되므로 시범 데이터에 과적합되고 분포 변화에 취약합니다. 강화 학습(RL)은 작업 보상을 직접 최적화하여 이러한 불일치를 해결하지만, 실제 로봇 상호작용은 비용이 높고 기존 시뮬레이터는 설계 및 전이가 어렵습니다. 본 연구는 학습된 세계 모델과 흐름 기반 행동 헤드에 특화된 RL 절차를 통해 VLA 사후 학습에서 데이터 효율성과 최적화 안정성을 동시에 해결합니다. 구체적으로, Prophet을 도입합니다. 이는 대규모 이기종 로봇 데이터에 걸쳐 사전 학습되어 재사용 가능한 행동-결과 역학을 학습하는 통합 행동-비디오 로봇 구동 모델입니다. Prophet은 새로운 로봇, 객체, 환경에 대해 적응형 학습이 가능하여 즉시 활용 가능한 시뮬레이터를 제공합니다. Prophet 기반으로, Flow-action-GRPO(FA-GRPO)를 통해 행동 정책을 강화합니다. FA-GRPO는 Flow-GRPO를 VLA 행동에 적용하며, FlowScale(흐름 헤드의 단계별 기울기를 재조정하는 단계별 가중치 재조정 기법)과 함께 사용됩니다. Prophet, FA-GRPO, FlowScale은 함께 실용적이고 데이터 및 계산 효율적인 VLA 사후 학습 경로인 ProphRL을 구성합니다. 실험 결과, 다양한 VLA 변형에서 공개 벤치마크 기준 5-17% 성공률 향상과 실제 로봇 기준 24-30% 성능 향상을 확인했습니다.
English
Vision-Language-Action (VLA) policies excel in aligning language, perception, and robot control. However, most VLAs are trained purely by imitation, which overfits to demonstrations, and is brittle under distribution shift. Reinforcement learning (RL) directly optimizes task reward and thus addresses this misalignment, but real-robot interaction is expensive and conventional simulators are hard to engineer and transfer. We address both data efficiency and optimization stability in VLA post-training via a learned world model and an RL procedure tailored to flow-based action heads. Specifically, we introduce Prophet, a unified action-to-video robot actuation pretrained across large-scale, heterogeneous robot data to learn reusable action-outcome dynamics. It is able to few-shot adapt to new robots, objects, and environments, yielding a rollout-ready simulator. Upon Prophet, we reinforce action policies with Flow-action-GRPO (FA-GRPO), which adapts Flow-GRPO to operate on VLA actions, and with FlowScale, a stepwise reweighting that rescales per-step gradients in the flow head. Together, Prophet, FA-GRPO, and FlowScale constitute ProphRL, a practical, data- and compute-efficient path to VLA post-training. Experiments show 5-17% success gains on public benchmarks and 24-30% gains on real robots across different VLA variants.
PDF22December 1, 2025