ChatPaper.aiChatPaper

월드 액션 모델은 제로샷 정책입니다

World Action Models are Zero-shot Policies

February 17, 2026
저자: Seonghyeon Ye, Yunhao Ge, Kaiyuan Zheng, Shenyuan Gao, Sihyun Yu, George Kurian, Suneel Indupuru, You Liang Tan, Chuning Zhu, Jiannan Xiang, Ayaan Malik, Kyungmin Lee, William Liang, Nadun Ranawaka, Jiasheng Gu, Yinzhen Xu, Guanzhi Wang, Fengyuan Hu, Avnish Narayan, Johan Bjorck, Jing Wang, Gwanghyun Kim, Dantong Niu, Ruijie Zheng, Yuqi Xie, Jimmy Wu, Qi Wang, Ryan Julian, Danfei Xu, Yilun Du, Yevgen Chebotar, Scott Reed, Jan Kautz, Yuke Zhu, Linxi "Jim" Fan, Joel Jang
cs.AI

초록

최첨단 Vision-Language-Action(VLA) 모델은 의미론적 일반화에서는 뛰어나지만, 새로운 환경에서 보지 못한 물리적 동작으로의 일반화에는 어려움을 겪습니다. 본 연구에서는 사전 학습된 비디오 확산 모델을 기반으로 구축된 World Action Model(WAM)인 DreamZero를 소개합니다. VLA와 달리 WAM은 비디오를 세계 변화의 밀집 표현으로 사용하여 미래 세계 상태와 행동을 예측함으로써 물리적 역학을 학습합니다. 비디오와 행동을 공동으로 모델링함으로써 DreamZero는 반복적인 데모에 의존하지 않고 이종 로봇 데이터로부터 다양한 기술을 효과적으로 학습합니다. 이로 인해 실제 로봇 실험에서 최첨단 VLA 대비 새로운 작업 및 환경에 대한 일반화 성능이 2배 이상 향상됩니다. 무엇보다도 모델 및 시스템 최적화를 통해 14B 자회귀 비디오 확산 모델이 7Hz로 실시간 폐루프 제어를 수행할 수 있도록 했습니다. 마지막으로 두 가지 형태의 교차 구현체 전이를 입증합니다. 다른 로봇이나 인간의 비디오 전용 데모를 통해 단 10-20분의 데이터로 보지 못한 작업 성능에서 42% 이상의 상대적 개선을 달성했습니다. 더욱 놀랍게도 DreamZero는 소수샷 구현체 적응을 가능하게 하여, 30분의 플레이 데이터만으로 새로운 구현체로 전이하면서도 제로샷 일반화 능력을 유지합니다.
English
State-of-the-art Vision-Language-Action (VLA) models excel at semantic generalization but struggle to generalize to unseen physical motions in novel environments. We introduce DreamZero, a World Action Model (WAM) built upon a pretrained video diffusion backbone. Unlike VLAs, WAMs learn physical dynamics by predicting future world states and actions, using video as a dense representation of how the world evolves. By jointly modeling video and action, DreamZero learns diverse skills effectively from heterogeneous robot data without relying on repetitive demonstrations. This results in over 2x improvement in generalization to new tasks and environments compared to state-of-the-art VLAs in real robot experiments. Crucially, through model and system optimizations, we enable a 14B autoregressive video diffusion model to perform real-time closed-loop control at 7Hz. Finally, we demonstrate two forms of cross-embodiment transfer: video-only demonstrations from other robots or humans yield a relative improvement of over 42% on unseen task performance with just 10-20 minutes of data. More surprisingly, DreamZero enables few-shot embodiment adaptation, transferring to a new embodiment with only 30 minutes of play data while retaining zero-shot generalization.
PDF151March 28, 2026