Modelos de Acción del Mundo: La Próxima Frontera en la IA Encarnada
World Action Models: The Next Frontier in Embodied AI
May 12, 2026
Autores: Siyin Wang, Junhao Shi, Zhaoyang Fu, Xinzhe He, Feihong Liu, Chenchen Yang, Yikang Zhou, Zhaoye Fei, Jingjing Gong, Jinlan Fu, Mike Zheng Shou, Xuanjing Huang, Xipeng Qiu, Yu-Gang Jiang
cs.AI
Resumen
Los modelos Visión-Lenguaje-Acción (VLA) han logrado una fuerte generalización semántica para el aprendizaje de políticas encarnadas, pero aprenden mapeos reactivos de observación a acción sin modelar explícitamente cómo evoluciona el mundo físico bajo intervención. Un creciente conjunto de trabajos aborda esta limitación integrando modelos del mundo, modelos predictivos de la dinámica del entorno, en el flujo de generación de acciones. Denominamos a este paradigma emergente Modelos de Acción del Mundo (WAMs): modelos fundacionales encarnados que unifican el modelado predictivo de estados con la generación de acciones, apuntando a una distribución conjunta sobre estados y acciones futuras en lugar de solo acciones. Sin embargo, la literatura permanece fragmentada entre arquitecturas, objetivos de aprendizaje y escenarios de aplicación, careciendo de un marco conceptual unificado. Definimos formalmente los WAMs y los distinguimos de conceptos relacionados, y trazamos los fundamentos y la integración temprana de la investigación en VLA y modelos del mundo que dieron origen a este paradigma. Organizamos los métodos existentes en una taxonomía estructurada de WAMs en Cascada y Conjuntos, con subdivisiones adicionales por modalidad de generación, mecanismo de condicionamiento y estrategia de decodificación de acciones. Analizamos sistemáticamente el ecosistema de datos que impulsa el desarrollo de los WAMs, abarcando teleoperación robótica, demostraciones humanas portátiles, simulación y video egocéntrico a escala de internet, y sintetizamos protocolos de evaluación emergentes organizados en torno a la fidelidad visual, el sentido común físico y la plausibilidad de la acción. En general, esta encuesta proporciona el primer relato sistemático del panorama de los WAMs, aclara los paradigmas arquitectónicos clave y sus compensaciones, e identifica desafíos abiertos y oportunidades futuras para este campo en rápida evolución.
English
Vision-Language-Action (VLA) models have achieved strong semantic generalization for embodied policy learning, yet they learn reactive observation-to-action mappings without explicitly modeling how the physical world evolves under intervention. A growing body of work addresses this limitation by integrating world models, predictive models of environment dynamics, into the action generation pipeline. We term this emerging paradigm World Action Models (WAMs): embodied foundation models that unify predictive state modeling with action generation, targeting a joint distribution over future states and actions rather than actions alone. However, the literature remains fragmented across architectures, learning objectives, and application scenarios, lacking a unified conceptual framework. We formally define WAMs and disambiguate them from related concepts, and trace the foundations and early integration of VLA and world model research that gave rise to this paradigm. We organize existing methods into a structured taxonomy of Cascaded and Joint WAMs, with further subdivision by generation modality, conditioning mechanism, and action decoding strategy. We systematically analyze the data ecosystem fueling WAMs development, spanning robot teleoperation, portable human demonstrations, simulation, and internet-scale egocentric video, and synthesize emerging evaluation protocols organized around visual fidelity, physical commonsense, and action plausibility. Overall, this survey provides the first systematic account of the WAMs landscape, clarifies key architectural paradigms and their trade-offs, and identifies open challenges and future opportunities for this rapidly evolving field.