WMPO: Otimização de Políticas Baseada em Modelo Mundial para Modelos Visão-Linguagem-Ação

Resumo

Os modelos Visão-Linguagem-Ação (VLA) têm demonstrado forte potencial para manipulação robótica de propósito geral, mas sua dependência de demonstrações especializadas limita sua capacidade de aprender com falhas e realizar autocorreções. A aprendizagem por reforço (RL) aborda essas limitações por meio de interações de autopromoção com o ambiente físico, mas sofre com alta complexidade amostral em robôs reais. Apresentamos a Otimização de Política Baseada em Modelo de Mundo (WMPO), uma estrutura principiada para RL VLA *on-policy* sem interação com o ambiente real. Em contraste com os modelos de mundo latentes amplamente utilizados, o WMPO concentra-se em previsões baseadas em pixels que alinham as trajetórias "imaginadas" com os recursos VLA pré-treinados com imagens em escala da web. Crucialmente, o WMPO permite que a política execute GRPO *on-policy*, que oferece desempenho superior aos métodos *off-policy* frequentemente utilizados. Experimentos extensivos em ambientes de simulação e robóticos reais demonstram que o WMPO (i) melhora substancialmente a eficiência amostral, (ii) alcança desempenho geral superior, (iii) exibe comportamentos emergentes como autocorreção e (iv) demonstra capacidades robustas de generalização e aprendizagem contínua.

English

Vision-Language-Action (VLA) models have shown strong potential for general-purpose robotic manipulation, but their reliance on expert demonstrations limits their ability to learn from failures and perform self-corrections. Reinforcement learning (RL) addresses these through self-improving interactions with the physical environment, but suffers from high sample complexity on real robots. We introduce World-Model-based Policy Optimization (WMPO), a principled framework for on-policy VLA RL without interacting with the real environment. In contrast to widely used latent world models, WMPO focuses on pixel-based predictions that align the "imagined" trajectories with the VLA features pretrained with web-scale images. Crucially, WMPO enables the policy to perform on-policy GRPO that provides stronger performance than the often-used off-policy methods. Extensive experiments in both simulation and real-robot settings demonstrate that WMPO (i) substantially improves sample efficiency, (ii) achieves stronger overall performance, (iii) exhibits emergent behaviors such as self-correction, and (iv) demonstrates robust generalization and lifelong learning capabilities.

WMPO: Otimização de Políticas Baseada em Modelo Mundial para Modelos Visão-Linguagem-Ação

WMPO: World Model-based Policy Optimization for Vision-Language-Action Models

Resumo

Support