Les modèles d'action mondiale sont des politiques d'apprentissage sans coup d'essai.

Résumé

Les modèles Vision-Langage-Action (VLA) de pointe excellent dans la généralisation sémantique mais peinent à généraliser les mouvements physiques inédits dans des environnements nouveaux. Nous présentons DreamZero, un Modèle d'Action Mondial (WAM) construit sur un modèle de diffusion vidéo préentraîné. Contrairement aux VLA, les WAM apprennent la dynamique physique en prédisant les états futurs du monde et les actions, utilisant la vidéo comme une représentation dense de l'évolution du monde. En modélisant conjointement la vidéo et l'action, DreamZero apprend efficacement des compétences diverses à partir de données robotiques hétérogènes sans dépendre de démonstrations répétitives. Cela se traduit par une amélioration de plus de 2 fois de la généralisation à de nouvelles tâches et environnements par rapport aux VLA de pointe dans des expériences sur robot réel. Fait crucial, grâce à des optimisations du modèle et du système, nous permettons à un modèle de diffusion vidéo autorégressif de 14B d'effectuer un contrôle en boucle fermée en temps réel à 7Hz. Enfin, nous démontrons deux formes de transfert inter-embodiment : des démonstrations uniquement vidéo provenant d'autres robots ou d'humains produisent une amélioration relative de plus de 42% sur les performances de tâches inédites avec seulement 10 à 20 minutes de données. Plus surprenant encore, DreamZero permet une adaptation par few-shot d'embodiment, transférant vers un nouvel embodiment avec seulement 30 minutes de données de jeu tout en conservant la généralisation zero-shot.

English

State-of-the-art Vision-Language-Action (VLA) models excel at semantic generalization but struggle to generalize to unseen physical motions in novel environments. We introduce DreamZero, a World Action Model (WAM) built upon a pretrained video diffusion backbone. Unlike VLAs, WAMs learn physical dynamics by predicting future world states and actions, using video as a dense representation of how the world evolves. By jointly modeling video and action, DreamZero learns diverse skills effectively from heterogeneous robot data without relying on repetitive demonstrations. This results in over 2x improvement in generalization to new tasks and environments compared to state-of-the-art VLAs in real robot experiments. Crucially, through model and system optimizations, we enable a 14B autoregressive video diffusion model to perform real-time closed-loop control at 7Hz. Finally, we demonstrate two forms of cross-embodiment transfer: video-only demonstrations from other robots or humans yield a relative improvement of over 42% on unseen task performance with just 10-20 minutes of data. More surprisingly, DreamZero enables few-shot embodiment adaptation, transferring to a new embodiment with only 30 minutes of play data while retaining zero-shot generalization.

Les modèles d'action mondiale sont des politiques d'apprentissage sans coup d'essai.

World Action Models are Zero-shot Policies

Résumé

Support