ChatPaper.aiChatPaper

세계 행동 모델: 체화된 인공지능의 다음 개척지

World Action Models: The Next Frontier in Embodied AI

May 12, 2026
저자: Siyin Wang, Junhao Shi, Zhaoyang Fu, Xinzhe He, Feihong Liu, Chenchen Yang, Yikang Zhou, Zhaoye Fei, Jingjing Gong, Jinlan Fu, Mike Zheng Shou, Xuanjing Huang, Xipeng Qiu, Yu-Gang Jiang
cs.AI

초록

비전-언어-행동(VLA) 모델은 구현된 정책 학습에서 강력한 의미론적 일반화를 달성했지만, 물리적 세계가 개입 하에서 어떻게 진화하는지를 명시적으로 모델링하지 않고 반응적인 관찰-행동 매핑을 학습한다. 이러한 한계를 해결하기 위해, 세계 모델(환경 역학의 예측 모델)을 행동 생성 파이프라인에 통합하는 연구가 증가하고 있다. 우리는 이 새로운 패러다임을 세계 행동 모델(WAM)이라고 명명한다. 이는 예측적 상태 모델링과 행동 생성을 통합하고, 행동만이 아닌 미래 상태와 행동에 대한 결합 분포를 목표로 하는 구현된 기반 모델이다. 그러나 기존 문헌은 아키텍처, 학습 목표, 적용 시나리오에 따라 분산되어 있어 통일된 개념적 프레임워크가 부족하다. 우리는 WAM을 공식적으로 정의하고 관련 개념과의 차이점을 명확히 하며, 이 패러다임을 탄생시킨 VLA 및 세계 모델 연구의 기초와 초기 통합 과정을 추적한다. 기존 방법을 캐스케이드 WAM과 조인트 WAM으로 구성된 구조적 분류 체계로 정리하고, 생성 양식, 조건화 메커니즘, 행동 디코딩 전략에 따라 세분화한다. 또한 WAM 개발을 촉진하는 데이터 생태계(로봇 원격 조작, 휴대용 인간 시연, 시뮬레이션, 인터넷 규모의 자기 중심 영상)를 체계적으로 분석하고, 시각적 충실도, 물리적 상식, 행동 타당성을 중심으로 한 새로운 평가 프로토콜을 종합한다. 전반적으로, 본 서베이는 WAM 연구 지형에 대한 최초의 체계적 개요를 제공하고, 주요 아키텍처 패러다임과 그 상충 관계를 명확히 하며, 이 빠르게 진화하는 분야의 미해결 과제와 미래 기회를 식별한다.
English
Vision-Language-Action (VLA) models have achieved strong semantic generalization for embodied policy learning, yet they learn reactive observation-to-action mappings without explicitly modeling how the physical world evolves under intervention. A growing body of work addresses this limitation by integrating world models, predictive models of environment dynamics, into the action generation pipeline. We term this emerging paradigm World Action Models (WAMs): embodied foundation models that unify predictive state modeling with action generation, targeting a joint distribution over future states and actions rather than actions alone. However, the literature remains fragmented across architectures, learning objectives, and application scenarios, lacking a unified conceptual framework. We formally define WAMs and disambiguate them from related concepts, and trace the foundations and early integration of VLA and world model research that gave rise to this paradigm. We organize existing methods into a structured taxonomy of Cascaded and Joint WAMs, with further subdivision by generation modality, conditioning mechanism, and action decoding strategy. We systematically analyze the data ecosystem fueling WAMs development, spanning robot teleoperation, portable human demonstrations, simulation, and internet-scale egocentric video, and synthesize emerging evaluation protocols organized around visual fidelity, physical commonsense, and action plausibility. Overall, this survey provides the first systematic account of the WAMs landscape, clarifies key architectural paradigms and their trade-offs, and identifies open challenges and future opportunities for this rapidly evolving field.
PDF511May 14, 2026