ChatPaper.aiChatPaper

Reforzamiento de Políticas de Acción mediante Profecía

Reinforcing Action Policies by Prophesying

November 25, 2025
Autores: Jiahui Zhang, Ze Huang, Chun Gu, Zipei Ma, Li Zhang
cs.AI

Resumen

Las políticas Visión-Lenguaje-Acción (VLA) sobresalen en alinear el lenguaje, la percepción y el control robótico. Sin embargo, la mayoría de las VLA se entrenan únicamente por imitación, lo que genera sobreajuste a las demostraciones y fragilidad ante cambios en la distribución. El aprendizaje por refuerzo (RL) optimiza directamente la recompensa de la tarea, abordando así este desalineamiento, pero la interacción con robots reales es costosa y los simuladores convencionales son difíciles de diseñar y transferir. Abordamos tanto la eficiencia de datos como la estabilidad de la optimización en el post-entrenamiento de VLA mediante un modelo del mundo aprendido y un procedimiento de RL adaptado a cabezales de acción basados en flujos. Específicamente, presentamos Prophet, una actuación robótica unificada de acción-a-video preentrenada con datos robóticos heterogéneos a gran escala para aprender dinámicas reutilizables de acción-resultado. Es capaz de adaptarse con pocos ejemplos a nuevos robots, objetos y entornos, produciendo un simulador listo para su ejecución. Sobre Prophet, reforzamos las políticas de acción con Flow-action-GRPO (FA-GRPO), que adapta Flow-GRPO para operar sobre acciones VLA, y con FlowScale, una reponderación paso a paso que reescala los gradientes por paso en la cabeza de flujo. Juntos, Prophet, FA-GRPO y FlowScale constituyen ProphRL, una vía práctica y eficiente en datos y cómputo para el post-entrenamiento de VLA. Los experimentos muestran mejoras de éxito del 5-17% en benchmarks públicos y del 24-30% en robots reales en diferentes variantes de VLA.
English
Vision-Language-Action (VLA) policies excel in aligning language, perception, and robot control. However, most VLAs are trained purely by imitation, which overfits to demonstrations, and is brittle under distribution shift. Reinforcement learning (RL) directly optimizes task reward and thus addresses this misalignment, but real-robot interaction is expensive and conventional simulators are hard to engineer and transfer. We address both data efficiency and optimization stability in VLA post-training via a learned world model and an RL procedure tailored to flow-based action heads. Specifically, we introduce Prophet, a unified action-to-video robot actuation pretrained across large-scale, heterogeneous robot data to learn reusable action-outcome dynamics. It is able to few-shot adapt to new robots, objects, and environments, yielding a rollout-ready simulator. Upon Prophet, we reinforce action policies with Flow-action-GRPO (FA-GRPO), which adapts Flow-GRPO to operate on VLA actions, and with FlowScale, a stepwise reweighting that rescales per-step gradients in the flow head. Together, Prophet, FA-GRPO, and FlowScale constitute ProphRL, a practical, data- and compute-efficient path to VLA post-training. Experiments show 5-17% success gains on public benchmarks and 24-30% gains on real robots across different VLA variants.
PDF22December 1, 2025