WMPO: Ottimizzazione delle Politiche basata su Modelli del Mondo per Modelli Visione-Linguaggio-Azione
WMPO: World Model-based Policy Optimization for Vision-Language-Action Models
November 12, 2025
Autori: Fangqi Zhu, Zhengyang Yan, Zicong Hong, Quanxin Shou, Xiao Ma, Song Guo
cs.AI
Abstract
I modelli Vision-Linguaggio-Azione (VLA) hanno mostrato un forte potenziale per la manipolazione robotica generica, ma la loro dipendenza da dimostrazioni esperte limita la loro capacità di apprendere dai fallimenti e di eseguire autocorrezioni. L'apprendimento per rinforzo (RL) affronta questi problemi attraverso interazioni di automiglioramento con l'ambiente fisico, ma soffre di un'elevata complessità campionaria sui robot reali. Introduciamo la World-Model-based Policy Optimization (WMPO), un framework principiato per il RL VLA on-policy senza interagire con l'ambiente reale. A differenza dei modelli del mondo latenti ampiamente utilizzati, la WMPO si concentra su predizioni basate sui pixel che allineano le traiettorie "immaginate" con le caratteristiche VLA pre-addestrate con immagini di scala web. Fondamentalmente, la WMPO consente alla politica di eseguire un GRPO on-policy che fornisce prestazioni più robuste rispetto ai metodi off-policy spesso utilizzati. Esperimenti estensivi in ambienti sia simulati che robotici reali dimostrano che la WMPO (i) migliora sostanzialmente l'efficienza campionaria, (ii) raggiunge prestazioni complessive superiori, (iii) mostra comportamenti emergenti come l'autocorrezione e (iv) dimostra capacità robuste di generalizzazione e apprendimento continuo.
English
Vision-Language-Action (VLA) models have shown strong potential for general-purpose robotic manipulation, but their reliance on expert demonstrations limits their ability to learn from failures and perform self-corrections. Reinforcement learning (RL) addresses these through self-improving interactions with the physical environment, but suffers from high sample complexity on real robots. We introduce World-Model-based Policy Optimization (WMPO), a principled framework for on-policy VLA RL without interacting with the real environment. In contrast to widely used latent world models, WMPO focuses on pixel-based predictions that align the "imagined" trajectories with the VLA features pretrained with web-scale images. Crucially, WMPO enables the policy to perform on-policy GRPO that provides stronger performance than the often-used off-policy methods. Extensive experiments in both simulation and real-robot settings demonstrate that WMPO (i) substantially improves sample efficiency, (ii) achieves stronger overall performance, (iii) exhibits emergent behaviors such as self-correction, and (iv) demonstrates robust generalization and lifelong learning capabilities.