Модели мировых действий: следующий рубеж воплощённого ИИ
World Action Models: The Next Frontier in Embodied AI
May 12, 2026
Авторы: Siyin Wang, Junhao Shi, Zhaoyang Fu, Xinzhe He, Feihong Liu, Chenchen Yang, Yikang Zhou, Zhaoye Fei, Jingjing Gong, Jinlan Fu, Mike Zheng Shou, Xuanjing Huang, Xipeng Qiu, Yu-Gang Jiang
cs.AI
Аннотация
Модели «Видение–Язык–Действие» (VLA) достигли высокой семантической обобщающей способности для обучения воплощённой политике, однако они обучают реактивные отображения от наблюдения к действию без явного моделирования того, как физический мир развивается под воздействием вмешательства. Всё больше работ устраняют это ограничение путём интеграции моделей мира — предсказательных моделей динамики окружения — в конвейер генерации действий. Мы называем эту формирующуюся парадигму «Модели Миро-Действия» (World Action Models, WAMs): воплощённые фундаментальные модели, которые объединяют предсказательное моделирование состояний с генерацией действий, нацеливаясь на совместное распределение по будущим состояниям и действиям, а не только по действиям. Однако литература остаётся фрагментированной по архитектурам, целям обучения и сценариям применения, и в ней отсутствует единая концептуальная основа. Мы формально определяем WAMs и разграничиваем их со смежными концепциями, а также прослеживаем основы и раннюю интеграцию исследований VLA и моделей мира, которые привели к этой парадигме. Мы организуем существующие методы в структурированную таксономию каскадных и совместных WAM, с дальнейшим разделением по модальности генерации, механизму обусловливания и стратегии декодирования действий. Мы систематически анализируем экосистему данных, питающую развитие WAM, охватывающую телеоперацию роботов, портативные демонстрации человека, симуляцию и эгоцентрическое видео интернет-масштаба, а также обобщаем возникающие протоколы оценки, сгруппированные вокруг визуального правдоподобия, физического здравого смысла и правдоподобия действий. В целом, этот обзор предоставляет первое систематическое описание ландшафта WAM, проясняет ключевые архитектурные парадигмы и их компромиссы, а также определяет открытые проблемы и будущие возможности для этой быстро развивающейся области.
English
Vision-Language-Action (VLA) models have achieved strong semantic generalization for embodied policy learning, yet they learn reactive observation-to-action mappings without explicitly modeling how the physical world evolves under intervention. A growing body of work addresses this limitation by integrating world models, predictive models of environment dynamics, into the action generation pipeline. We term this emerging paradigm World Action Models (WAMs): embodied foundation models that unify predictive state modeling with action generation, targeting a joint distribution over future states and actions rather than actions alone. However, the literature remains fragmented across architectures, learning objectives, and application scenarios, lacking a unified conceptual framework. We formally define WAMs and disambiguate them from related concepts, and trace the foundations and early integration of VLA and world model research that gave rise to this paradigm. We organize existing methods into a structured taxonomy of Cascaded and Joint WAMs, with further subdivision by generation modality, conditioning mechanism, and action decoding strategy. We systematically analyze the data ecosystem fueling WAMs development, spanning robot teleoperation, portable human demonstrations, simulation, and internet-scale egocentric video, and synthesize emerging evaluation protocols organized around visual fidelity, physical commonsense, and action plausibility. Overall, this survey provides the first systematic account of the WAMs landscape, clarifies key architectural paradigms and their trade-offs, and identifies open challenges and future opportunities for this rapidly evolving field.