ChatPaper.aiChatPaper

WMPO: 비전-언어-행동 모델을 위한 세계 모델 기반 정책 최적화

WMPO: World Model-based Policy Optimization for Vision-Language-Action Models

November 12, 2025
저자: Fangqi Zhu, Zhengyang Yan, Zicong Hong, Quanxin Shou, Xiao Ma, Song Guo
cs.AI

초록

비전-언어-행동(VLA) 모델은 범용 로봇 매니퓰레이션에서 강력한 잠재력을 보여주지만, 전문가 시연 데이터에 대한 의존성으로 인해 실패로부터 학습하고 자가 수정을 수행하는 능력이 제한됩니다. 강화 학습(RL)은 물리적 환경과의 자기 개선적 상호작용을 통해 이러한 문제를 해결하지만, 실제 로봇에서 높은 샘플 복잡도 문제를 겪습니다. 본 연구에서는 실제 환경과의 상호작용 없이 온-정책 VLA 강화 학습을 위한 원칙적인 프레임워크인 월드 모델 기반 정책 최적화(WMPO)를 소개합니다. 널리 사용되는 잠재 월드 모델과 대조적으로, WMPO는 웹 규모 이미지로 사전 학습된 VLA 특징과 "상상된" 궤적을 정렬하는 픽셀 기반 예측에 중점을 둡니다. 중요한 것은 WMPO가 정책으로 하여금 기존에 흔히 사용되던 오프-정책 방법보다 더 강력한 성능을 제공하는 온-정책 GRPO를 수행할 수 있게 한다는 점입니다. 시뮬레이션과 실제 로봇 환경에서의 광범위한 실험을 통해 WMPO가 (i) 샘플 효율성을 크게 향상시키고, (ii) 더 강력한 전반적인 성능을 달성하며, (iii) 자가 수정과 같은 창발적 행동을 보여주고, (iv) 견고한 일반화 및 평생 학습 능력을 입증함을 확인했습니다.
English
Vision-Language-Action (VLA) models have shown strong potential for general-purpose robotic manipulation, but their reliance on expert demonstrations limits their ability to learn from failures and perform self-corrections. Reinforcement learning (RL) addresses these through self-improving interactions with the physical environment, but suffers from high sample complexity on real robots. We introduce World-Model-based Policy Optimization (WMPO), a principled framework for on-policy VLA RL without interacting with the real environment. In contrast to widely used latent world models, WMPO focuses on pixel-based predictions that align the "imagined" trajectories with the VLA features pretrained with web-scale images. Crucially, WMPO enables the policy to perform on-policy GRPO that provides stronger performance than the often-used off-policy methods. Extensive experiments in both simulation and real-robot settings demonstrate that WMPO (i) substantially improves sample efficiency, (ii) achieves stronger overall performance, (iii) exhibits emergent behaviors such as self-correction, and (iv) demonstrates robust generalization and lifelong learning capabilities.
PDF162December 1, 2025