WMPO: ビジョン・言語・行動モデルのための世界モデルベース方策最適化
WMPO: World Model-based Policy Optimization for Vision-Language-Action Models
November 12, 2025
著者: Fangqi Zhu, Zhengyang Yan, Zicong Hong, Quanxin Shou, Xiao Ma, Song Guo
cs.AI
要旨
Vision-Language-Action(VLA)モデルは汎用ロボットマニピュレーションにおいて強力な可能性を示しているが、専門家による実演データへの依存性が失敗からの学習や自己修正の能力を制限している。強化学習(RL)は物理環境との自己改善型相互作用を通じてこれらの課題に対処するが、実機における高いサンプル複雑性が問題となる。本研究では、実環境との相互作用を伴わないオンライン方策VLA強化学習のための理論的枠組みであるWorld-Model-based Policy Optimization(WMPO)を提案する。広く用いられている潜在世界モデルとは対照的に、WMPOはピクセルベースの予測に焦点を当て、ウェブスケール画像で事前学習されたVLA特徴量と「想像」軌跡を整合させる。特に重要な点として、WMPOは方策にオンラインGRPOを可能にし、一般的に用いられるオフライン方策手法よりも優れた性能を発揮する。シミュレーションと実機環境の両方における大規模実験により、WMPOが(i)サンプル効率を大幅に改善し、(ii)より強力な総合性能を達成し、(iii)自己修正といった創発的振る舞いを示し、(iv)頑健な汎化能力と生涯学習能力を発揮することを実証した。
English
Vision-Language-Action (VLA) models have shown strong potential for general-purpose robotic manipulation, but their reliance on expert demonstrations limits their ability to learn from failures and perform self-corrections. Reinforcement learning (RL) addresses these through self-improving interactions with the physical environment, but suffers from high sample complexity on real robots. We introduce World-Model-based Policy Optimization (WMPO), a principled framework for on-policy VLA RL without interacting with the real environment. In contrast to widely used latent world models, WMPO focuses on pixel-based predictions that align the "imagined" trajectories with the VLA features pretrained with web-scale images. Crucially, WMPO enables the policy to perform on-policy GRPO that provides stronger performance than the often-used off-policy methods. Extensive experiments in both simulation and real-robot settings demonstrate that WMPO (i) substantially improves sample efficiency, (ii) achieves stronger overall performance, (iii) exhibits emergent behaviors such as self-correction, and (iv) demonstrates robust generalization and lifelong learning capabilities.