Modelos de Ação Mundial são Políticas de Execução Imediata
World Action Models are Zero-shot Policies
February 17, 2026
Autores: Seonghyeon Ye, Yunhao Ge, Kaiyuan Zheng, Shenyuan Gao, Sihyun Yu, George Kurian, Suneel Indupuru, You Liang Tan, Chuning Zhu, Jiannan Xiang, Ayaan Malik, Kyungmin Lee, William Liang, Nadun Ranawaka, Jiasheng Gu, Yinzhen Xu, Guanzhi Wang, Fengyuan Hu, Avnish Narayan, Johan Bjorck, Jing Wang, Gwanghyun Kim, Dantong Niu, Ruijie Zheng, Yuqi Xie, Jimmy Wu, Qi Wang, Ryan Julian, Danfei Xu, Yilun Du, Yevgen Chebotar, Scott Reed, Jan Kautz, Yuke Zhu, Linxi "Jim" Fan, Joel Jang
cs.AI
Resumo
Os modelos de última geração Vision-Language-Action (VLA) destacam-se na generalização semântica, mas têm dificuldade em generalizar para movimentos físicos não vistos em ambientes novos. Apresentamos o DreamZero, um Modelo de Ação Mundial (WAM) construído sobre uma base de difusão de vídeo pré-treinada. Ao contrário dos VLAs, os WAMs aprendem dinâmicas físicas prevendo estados e ações futuras do mundo, utilizando o vídeo como uma representação densa de como o mundo evolui. Ao modelar conjuntamente vídeo e ação, o DreamZero aprende habilidades diversas de forma eficaz a partir de dados robóticos heterogéneos, sem depender de demonstrações repetitivas. Isto resulta numa melhoria superior a 2x na generalização para novas tarefas e ambientes em comparação com VLAs de última geração em experiências com robôs reais. Crucialmente, através de otimizações de modelo e sistema, permitimos que um modelo autoregressivo de difusão de vídeo de 14B realize controlo em circuito fechado em tempo real a 7Hz. Por fim, demonstramos duas formas de transferência de encarnação cruzada: demonstrações apenas em vídeo de outros robôs ou humanos produzem uma melhoria relativa de mais de 42% no desempenho de tarefas não vistas com apenas 10-20 minutos de dados. Mais surpreendentemente, o DreamZero permite uma adaptação de encarnação de poucos exemplos, transferindo para uma nova encarnação com apenas 30 minutos de dados de "brincadeira", mantendo ao mesmo tempo a generalização de disparo zero.
English
State-of-the-art Vision-Language-Action (VLA) models excel at semantic generalization but struggle to generalize to unseen physical motions in novel environments. We introduce DreamZero, a World Action Model (WAM) built upon a pretrained video diffusion backbone. Unlike VLAs, WAMs learn physical dynamics by predicting future world states and actions, using video as a dense representation of how the world evolves. By jointly modeling video and action, DreamZero learns diverse skills effectively from heterogeneous robot data without relying on repetitive demonstrations. This results in over 2x improvement in generalization to new tasks and environments compared to state-of-the-art VLAs in real robot experiments. Crucially, through model and system optimizations, we enable a 14B autoregressive video diffusion model to perform real-time closed-loop control at 7Hz. Finally, we demonstrate two forms of cross-embodiment transfer: video-only demonstrations from other robots or humans yield a relative improvement of over 42% on unseen task performance with just 10-20 minutes of data. More surprisingly, DreamZero enables few-shot embodiment adaptation, transferring to a new embodiment with only 30 minutes of play data while retaining zero-shot generalization.