Weltaktionsmodelle sind Null-Shot-Politiken.
World Action Models are Zero-shot Policies
February 17, 2026
Autoren: Seonghyeon Ye, Yunhao Ge, Kaiyuan Zheng, Shenyuan Gao, Sihyun Yu, George Kurian, Suneel Indupuru, You Liang Tan, Chuning Zhu, Jiannan Xiang, Ayaan Malik, Kyungmin Lee, William Liang, Nadun Ranawaka, Jiasheng Gu, Yinzhen Xu, Guanzhi Wang, Fengyuan Hu, Avnish Narayan, Johan Bjorck, Jing Wang, Gwanghyun Kim, Dantong Niu, Ruijie Zheng, Yuqi Xie, Jimmy Wu, Qi Wang, Ryan Julian, Danfei Xu, Yilun Du, Yevgen Chebotar, Scott Reed, Jan Kautz, Yuke Zhu, Linxi "Jim" Fan, Joel Jang
cs.AI
Zusammenfassung
State-of-the-Art Vision-Language-Action (VLA)-Modelle zeichnen sich durch semantische Generalisierungsfähigkeit aus, haben jedoch Schwierigkeiten, Generalisierung auf ungesehene physische Bewegungen in neuen Umgebungen zu erreichen. Wir stellen DreamZero vor, ein World Action Model (WAM), das auf einem vortrainierten Video-Diffusions-Backbone aufbaut. Im Gegensatz zu VLAs lernen WAMs physikalische Dynamiken, indem sie zukünftige Weltzustände und Aktionen vorhersagen und dabei Video als dichte Repräsentation der Weltenentwicklung nutzen. Durch die gemeinsame Modellierung von Video und Aktion erlernt DreamZero effektiv diverse Fähigkeiten aus heterogenen Roboterdaten, ohne auf repetitive Demonstrationen angewiesen zu sein. Dies führt in Echtzeit-Roboterexperimenten zu einer mehr als 2-fachen Verbesserung der Generalisierungsfähigkeit für neue Aufgaben und Umgebungen im Vergleich zu state-of-the-art VLAs. Entscheidend ist, dass wir durch Modell- und Systemoptimierungen ein autoregressives Video-Diffusionsmodell mit 14B Parametern für eine Echtzeit-Closed-Loop-Steuerung mit 7 Hz befähigen. Abschließend demonstrieren wir zwei Formen des Cross-Embodiment-Transfers: Video-only-Demonstrationen von anderen Robotern oder Menschen führen zu einer relativen Verbesserung von über 42 % bei der Leistung in ungesehenen Aufgaben mit nur 10-20 Minuten Daten. Noch überraschender ist, dass DreamZero Few-Shot-Embodiment-Anpassung ermöglicht – der Transfer auf eine neue Verkörperung gelingt mit nur 30 Minuten Spiel-Daten, während die Zero-Shot-Generalisierung erhalten bleibt.
English
State-of-the-art Vision-Language-Action (VLA) models excel at semantic generalization but struggle to generalize to unseen physical motions in novel environments. We introduce DreamZero, a World Action Model (WAM) built upon a pretrained video diffusion backbone. Unlike VLAs, WAMs learn physical dynamics by predicting future world states and actions, using video as a dense representation of how the world evolves. By jointly modeling video and action, DreamZero learns diverse skills effectively from heterogeneous robot data without relying on repetitive demonstrations. This results in over 2x improvement in generalization to new tasks and environments compared to state-of-the-art VLAs in real robot experiments. Crucially, through model and system optimizations, we enable a 14B autoregressive video diffusion model to perform real-time closed-loop control at 7Hz. Finally, we demonstrate two forms of cross-embodiment transfer: video-only demonstrations from other robots or humans yield a relative improvement of over 42% on unseen task performance with just 10-20 minutes of data. More surprisingly, DreamZero enables few-shot embodiment adaptation, transferring to a new embodiment with only 30 minutes of play data while retaining zero-shot generalization.