Weltaktionsmodelle: Die nächste Grenze der Embodied AI
World Action Models: The Next Frontier in Embodied AI
May 12, 2026
Autoren: Siyin Wang, Junhao Shi, Zhaoyang Fu, Xinzhe He, Feihong Liu, Chenchen Yang, Yikang Zhou, Zhaoye Fei, Jingjing Gong, Jinlan Fu, Mike Zheng Shou, Xuanjing Huang, Xipeng Qiu, Yu-Gang Jiang
cs.AI
Zusammenfassung
Modelle der Vision-Sprache-Aktion (VLA) haben eine starke semantische Generalisierung für verkörpertes Policy-Lernen erreicht, jedoch erlernen sie reaktive Beobachtungs-zu-Aktions-Zuordnungen, ohne explizit zu modellieren, wie sich die physische Welt unter Eingriffen entwickelt. Eine wachsende Anzahl von Arbeiten adressiert diese Einschränkung, indem sie Weltmodelle – prädiktive Modelle der Umgebungsdynamik – in die Aktionsgenerierung integrieren. Wir bezeichnen dieses aufkommende Paradigma als World Action Models (WAMs): verkörperte Grundlagenmodelle, die prädiktive Zustandsmodellierung mit Aktionsgenerierung vereinen und auf eine gemeinsame Verteilung über zukünftige Zustände und Aktionen abzielen, anstatt nur auf Aktionen. Allerdings bleibt die Literatur fragmentiert über Architekturen, Lernziele und Anwendungsszenarien hinweg, ohne einen einheitlichen konzeptionellen Rahmen. Wir definieren WAMs formal und grenzen sie von verwandten Konzepten ab, und verfolgen die Grundlagen und frühen Integrationen von VLA- und Weltmodellforschung, die zu diesem Paradigma führten. Wir organisieren bestehende Methoden in eine strukturierte Taxonomie von kaskadierten und gemeinsamen WAMs, mit weiterer Unterteilung nach Generierungsmodalität, Konditionierungsmechanismus und Aktionsdekodierungsstrategie. Wir analysieren systematisch das Datenökosystem, das die Entwicklung von WAMs vorantreibt, einschließlich Robot-Teleoperation, tragbaren menschlichen Demonstrationen, Simulation und internetbasiertem egozentrischem Video, und synthetisieren aufkommende Evaluierungsprotokolle, die um visuelle Treue, physischen Common Sense und Aktionsplausibilität organisiert sind. Insgesamt bietet diese Übersicht die erste systematische Darstellung der WAMs-Landschaft, klärt wichtige Architekturparadigmen und ihre Trade-offs und identifiziert offene Herausforderungen und zukünftige Möglichkeiten für dieses sich schnell entwickelnde Feld.
English
Vision-Language-Action (VLA) models have achieved strong semantic generalization for embodied policy learning, yet they learn reactive observation-to-action mappings without explicitly modeling how the physical world evolves under intervention. A growing body of work addresses this limitation by integrating world models, predictive models of environment dynamics, into the action generation pipeline. We term this emerging paradigm World Action Models (WAMs): embodied foundation models that unify predictive state modeling with action generation, targeting a joint distribution over future states and actions rather than actions alone. However, the literature remains fragmented across architectures, learning objectives, and application scenarios, lacking a unified conceptual framework. We formally define WAMs and disambiguate them from related concepts, and trace the foundations and early integration of VLA and world model research that gave rise to this paradigm. We organize existing methods into a structured taxonomy of Cascaded and Joint WAMs, with further subdivision by generation modality, conditioning mechanism, and action decoding strategy. We systematically analyze the data ecosystem fueling WAMs development, spanning robot teleoperation, portable human demonstrations, simulation, and internet-scale egocentric video, and synthesize emerging evaluation protocols organized around visual fidelity, physical commonsense, and action plausibility. Overall, this survey provides the first systematic account of the WAMs landscape, clarifies key architectural paradigms and their trade-offs, and identifies open challenges and future opportunities for this rapidly evolving field.