Modèles d'action mondiaux : une revue

Résumé

Les Modèles d'Action Mondiaux (WAMs) sont des modèles prédictifs d'action incarnés qui mettent une prévision du futur à la disposition de l'action. Les WAMs récents réutilisent de grands modèles de génération vidéo, tandis qu'une ligne parallèle s'appuie sur des backbones linguistiques ou vision-langage sans noyau de génération vidéo. Cette expansion rapide a brouillé la frontière entre les modèles du monde larges, les modèles de génération vidéo, les modèles vidéo du monde ancrés dans l'action, les politiques Vision-Langage-Action et les WAMs. Cette synthèse offre au domaine un état des lieux commun. Elle clarifie d'abord ces frontières, puis organise les travaux existants à travers deux perspectives complémentaires. La première perspective examine ce que chaque méthode est tenue de générer, couvrant les futurs rendus, les futurs latents et le raisonnement d'action sans génération vidéo. La seconde perspective décompose chaque méthode selon le substrat prédictif, le backbone, le couplage d'action et le régime de déploiement. Cette anatomie permet une discussion unifiée de l'interactivité, de la causalité, de la persistance, de la plausibilité physique et de la généralisation, suivie par les données, l'évaluation et les défis ouverts. À travers ces axes, un schéma de conception cohérent émerge : les WAMs ne sont pas simplement des générateurs vidéo avec des têtes d'action, mais des méthodes d'action prédictives dont les choix de conception échangent la richesse représentationnelle contre le calcul, la mémoire, la latence et le coût des étiquettes d'action. Le domaine évolue vers des méthodes qui génèrent moins du futur tout en préservant ce que le contrôle exige. La page d'accueil du survey est disponible à l'adresse https://world-action-models.github.io/.

English

World Action Models (WAMs) are embodied predictive-action models that make a forecast of the future available to action. Recent WAMs repurpose large video generation models, and a parallel line relies on language or vision-language backbones without a video-generation core. This rapid expansion has blurred the boundary among broad world models, video generation models, action-grounded video world models, Vision-Language-Action policies, and WAMs. This survey gives the field a common account. It first clarifies these boundaries, then organizes existing works through two complementary views. The first view asks what each method is required to generate, spanning rendered futures, latent futures, and video-generation-free action reasoning. The second view decomposes each method by predictive substrate, backbone, action coupling, and deployment regime. This anatomy supports a unified discussion of interactability, causality, persistence, physical plausibility, and generalization, followed by data, evaluation, and open challenges. Across these axes, a consistent design pattern emerges: WAMs are not simply video generators with action heads, but predictive-action methods whose design choices trade representational richness against compute, memory, latency, and action-label cost. The field is moving toward methods that generate less of the future while preserving what control requires. The survey homepage is available at https://world-action-models.github.io/.