Modèles d'Action Mondiaux : La Prochaine Frontière de l'IA Incarnée

Résumé

Les modèles Vision-Langage-Action (VLA) ont obtenu une forte généralisation sémantique pour l'apprentissage de politiques incarnées, mais ils apprennent des mappages réactifs observation-action sans modéliser explicitement l'évolution du monde physique sous l'effet d'interventions. Un nombre croissant de travaux adresse cette limitation en intégrant des modèles du monde, modèles prédictifs de la dynamique de l'environnement, dans le pipeline de génération d'actions. Nous appelons ce paradigme émergent les World Action Models (WAMs) : des modèles de fondation incarnés qui unifient la modélisation prédictive des états avec la génération d'actions, visant une distribution conjointe sur les états et actions futurs plutôt que sur les seules actions. Cependant, la littérature reste fragmentée entre architectures, objectifs d'apprentissage et scénarios d'application, sans cadre conceptuel unifié. Nous définissons formellement les WAMs et les distinguons des concepts apparentés, et retraçons les fondements et l'intégration précoce des recherches sur les VLA et les modèles du monde qui ont donné naissance à ce paradigme. Nous organisons les méthodes existantes en une taxonomie structurée de WAMs en cascade et joints, avec des subdivisions supplémentaires par modalité de génération, mécanisme de conditionnement et stratégie de décodage d'actions. Nous analysons systématiquement l'écosystème de données qui alimente le développement des WAMs, couvrant la téléopération robotique, les démonstrations humaines portables, la simulation et les vidéos égocentriques à l'échelle d'Internet, et nous synthétisons les protocoles d'évaluation émergents organisés autour de la fidélité visuelle, du bon sens physique et de la plausibilité des actions. Dans l'ensemble, cette étude fournit le premier compte rendu systématique du paysage des WAMs, clarifie les paradigmes architecturaux clés et leurs compromis, et identifie les défis ouverts et les opportunités futures pour ce domaine en évolution rapide.

English

Vision-Language-Action (VLA) models have achieved strong semantic generalization for embodied policy learning, yet they learn reactive observation-to-action mappings without explicitly modeling how the physical world evolves under intervention. A growing body of work addresses this limitation by integrating world models, predictive models of environment dynamics, into the action generation pipeline. We term this emerging paradigm World Action Models (WAMs): embodied foundation models that unify predictive state modeling with action generation, targeting a joint distribution over future states and actions rather than actions alone. However, the literature remains fragmented across architectures, learning objectives, and application scenarios, lacking a unified conceptual framework. We formally define WAMs and disambiguate them from related concepts, and trace the foundations and early integration of VLA and world model research that gave rise to this paradigm. We organize existing methods into a structured taxonomy of Cascaded and Joint WAMs, with further subdivision by generation modality, conditioning mechanism, and action decoding strategy. We systematically analyze the data ecosystem fueling WAMs development, spanning robot teleoperation, portable human demonstrations, simulation, and internet-scale egocentric video, and synthesize emerging evaluation protocols organized around visual fidelity, physical commonsense, and action plausibility. Overall, this survey provides the first systematic account of the WAMs landscape, clarifies key architectural paradigms and their trade-offs, and identifies open challenges and future opportunities for this rapidly evolving field.

Modèles d'Action Mondiaux : La Prochaine Frontière de l'IA Incarnée

World Action Models: The Next Frontier in Embodied AI

Résumé

Support