WMPO: Wereldmodel-gebaseerd Beleidsoptimalisatie voor Visie-Taal-Actie Modellen
WMPO: World Model-based Policy Optimization for Vision-Language-Action Models
November 12, 2025
Auteurs: Fangqi Zhu, Zhengyang Yan, Zicong Hong, Quanxin Shou, Xiao Ma, Song Guo
cs.AI
Samenvatting
Vision-Language-Action (VLA)-modellen hebben een groot potentieel getoond voor algemene robotmanipulatie, maar hun afhankelijkheid van expertdemonstraties beperkt hun vermogen om te leren uit fouten en zelfcorrecties uit te voeren. Reinforcement learning (RL) lost dit op door zelfverbeterende interacties met de fysieke omgeving, maar lijdt onder hoge samplecomplexiteit op echte robots. Wij introduceren World-Model-based Policy Optimization (WMPO), een principieel raamwerk voor on-policy VLA-RL zonder interactie met de echte omgeving. In tegenstelling tot veelgebruikte latente wereldmodellen, richt WMPO zich op pixelgebaseerde voorspellingen die de "verbeelde" trajecten afstemmen op de VLA-functies die zijn voorgetraind met web-schaal beelden. Cruciaal is dat WMPO het beleid in staat stelt om on-policy GRPO uit te voeren, wat betere prestaties biedt dan de vaak gebruikte off-policy methoden. Uitgebreide experimenten in zowel simulatie- als echte robotomgevingen tonen aan dat WMPO (i) de sample-efficiëntie aanzienlijk verbetert, (ii) sterkere algehele prestaties bereikt, (iii) emergent gedrag vertoont zoals zelfcorrectie, en (iv) robuuste generalisatie- en levenslang-leren capaciteiten demonstreert.
English
Vision-Language-Action (VLA) models have shown strong potential for general-purpose robotic manipulation, but their reliance on expert demonstrations limits their ability to learn from failures and perform self-corrections. Reinforcement learning (RL) addresses these through self-improving interactions with the physical environment, but suffers from high sample complexity on real robots. We introduce World-Model-based Policy Optimization (WMPO), a principled framework for on-policy VLA RL without interacting with the real environment. In contrast to widely used latent world models, WMPO focuses on pixel-based predictions that align the "imagined" trajectories with the VLA features pretrained with web-scale images. Crucially, WMPO enables the policy to perform on-policy GRPO that provides stronger performance than the often-used off-policy methods. Extensive experiments in both simulation and real-robot settings demonstrate that WMPO (i) substantially improves sample efficiency, (ii) achieves stronger overall performance, (iii) exhibits emergent behaviors such as self-correction, and (iv) demonstrates robust generalization and lifelong learning capabilities.