ChatPaper.aiChatPaper

WMPO : Optimisation de Politique basée sur un Modèle du Monde pour les Modèles Vision-Langue-Action

WMPO: World Model-based Policy Optimization for Vision-Language-Action Models

November 12, 2025
papers.authors: Fangqi Zhu, Zhengyang Yan, Zicong Hong, Quanxin Shou, Xiao Ma, Song Guo
cs.AI

papers.abstract

Les modèles Vision-Langage-Action (VLA) ont montré un fort potentiel pour la manipulation robotique généraliste, mais leur dépendance aux démonstrations expertes limite leur capacité à apprendre des échecs et à effectuer des auto-corrections. L'apprentissage par renforcement (RL) aborde ces problèmes par des interactions d'auto-amélioration avec l'environnement physique, mais souffre d'une complexité d'échantillonnage élevée sur les robots réels. Nous présentons l'Optimisation de Politique basée sur un Modèle du Monde (WMPO), un cadre théorique pour le RL VLA sur-politique sans interaction avec l'environnement réel. Contrairement aux modèles du monde latents largement utilisés, WMPO se concentre sur des prédictions pixeliques qui alignent les trajectoires « imaginées » avec les caractéristiques VLA pré-entraînées sur des images à l'échelle du web. Fait crucial, WMPO permet à la politique d'effectuer un GRPO sur-politique qui offre de meilleures performances que les méthodes hors-politique souvent utilisées. Des expériences approfondies en simulation et sur des robots réels démontrent que WMPO (i) améliore considérablement l'efficacité de l'échantillonnage, (ii) atteint des performances globales supérieures, (iii) présente des comportements émergents tels que l'auto-correction, et (iv) démontre des capacités robustes de généralisation et d'apprentissage continu.
English
Vision-Language-Action (VLA) models have shown strong potential for general-purpose robotic manipulation, but their reliance on expert demonstrations limits their ability to learn from failures and perform self-corrections. Reinforcement learning (RL) addresses these through self-improving interactions with the physical environment, but suffers from high sample complexity on real robots. We introduce World-Model-based Policy Optimization (WMPO), a principled framework for on-policy VLA RL without interacting with the real environment. In contrast to widely used latent world models, WMPO focuses on pixel-based predictions that align the "imagined" trajectories with the VLA features pretrained with web-scale images. Crucially, WMPO enables the policy to perform on-policy GRPO that provides stronger performance than the often-used off-policy methods. Extensive experiments in both simulation and real-robot settings demonstrate that WMPO (i) substantially improves sample efficiency, (ii) achieves stronger overall performance, (iii) exhibits emergent behaviors such as self-correction, and (iv) demonstrates robust generalization and lifelong learning capabilities.
PDF162December 1, 2025