WMPO: Optimización de Políticas Basada en Modelos del Mundo para Modelos de Visión, Lenguaje y Acción
WMPO: World Model-based Policy Optimization for Vision-Language-Action Models
November 12, 2025
Autores: Fangqi Zhu, Zhengyang Yan, Zicong Hong, Quanxin Shou, Xiao Ma, Song Guo
cs.AI
Resumen
Los modelos Visión-Lenguaje-Acción (VLA) han demostrado un gran potencial para la manipulación robótica de propósito general, pero su dependencia de demostraciones expertas limita su capacidad para aprender de los fallos y realizar autocorrecciones. El aprendizaje por refuerzo (RL) aborda estos problemas mediante interacciones de auto-mejora con el entorno físico, pero sufre de una alta complejidad muestral en robots reales. Presentamos World-Model-based Policy Optimization (WMPO), un marco teórico para RL VLA *on-policy* sin interacción con el entorno real. A diferencia de los modelos del mundo latentes ampliamente utilizados, WMPO se centra en predicciones basadas en píxeles que alinean las trayectorias "imaginadas" con las características VLA preentrenadas con imágenes a escala web. Crucialmente, WMPO permite a la política realizar GRPO *on-policy*, que ofrece un rendimiento superior al de los métodos *off-policy* utilizados a menudo. Experimentos exhaustivos en entornos tanto de simulación como de robot real demuestran que WMPO (i) mejora sustancialmente la eficiencia muestral, (ii) logra un rendimiento general superior, (iii) exhibe comportamientos emergentes como la autocorrección y (iv) demuestra capacidades robustas de generalización y aprendizaje continuo.
English
Vision-Language-Action (VLA) models have shown strong potential for general-purpose robotic manipulation, but their reliance on expert demonstrations limits their ability to learn from failures and perform self-corrections. Reinforcement learning (RL) addresses these through self-improving interactions with the physical environment, but suffers from high sample complexity on real robots. We introduce World-Model-based Policy Optimization (WMPO), a principled framework for on-policy VLA RL without interacting with the real environment. In contrast to widely used latent world models, WMPO focuses on pixel-based predictions that align the "imagined" trajectories with the VLA features pretrained with web-scale images. Crucially, WMPO enables the policy to perform on-policy GRPO that provides stronger performance than the often-used off-policy methods. Extensive experiments in both simulation and real-robot settings demonstrate that WMPO (i) substantially improves sample efficiency, (ii) achieves stronger overall performance, (iii) exhibits emergent behaviors such as self-correction, and (iv) demonstrates robust generalization and lifelong learning capabilities.