ChatPaper.aiChatPaper

세계 행동 모델: 개요

World Action Models: A Survey

June 18, 2026
저자: Qiuhong Shen, Shihua Zhang, Yue Liao, Qi Li, Zhenxiong Tan, Shizun Wang, Shuicheng Yan, Xinchao Wang
cs.AI

초록

세계 행동 모델(World Action Models, WAMs)은 미래 예측을 행동에 제공하는 체화된 예측-행동 모델이다. 최근 WAM은 대규모 비디오 생성 모델을 재활용하며, 이와 병행한 연구 계열은 비디오 생성 코어 없이 언어 또는 시각-언어 백본에 의존한다. 이러한 급속한 확장은 광범위한 세계 모델, 비디오 생성 모델, 행동 기반 비디오 세계 모델, 시각-언어-행동 정책, 그리고 WAM 간의 경계를 모호하게 만들었다. 본 서베이는 이 분야에 공통된 설명을 제공한다. 먼저 이러한 경계를 명확히 한 뒤, 두 가지 상호 보완적 관점을 통해 기존 연구를 정리한다. 첫 번째 관점은 각 방법이 무엇을 생성해야 하는지에 대한 질문으로, 렌더링된 미래, 잠재적 미래, 그리고 비디오 생성 없는 행동 추론을 아우른다. 두 번째 관점은 각 방법을 예측 기반, 백본, 행동 결합, 배치 체제로 분해한다. 이러한 해부학적 구조는 상호작용 가능성, 인과성, 지속성, 물리적 타당성, 일반화에 대한 통일된 논의를 지원하며, 이어서 데이터, 평가 및 공개 과제를 다룬다. 이러한 축을 통해 일관된 설계 패턴이 드러난다. WAM은 단순히 행동 헤드를 갖춘 비디오 생성기가 아니라, 설계 선택이 표현적 풍부성과 계산, 메모리, 지연 시간, 행동 레이블 비용 간의 균형을 이루는 예측-행동 방법이다. 이 분야는 제어에 필요한 것을 유지하면서 미래를 덜 생성하는 방법으로 나아가고 있다. 서베이 홈페이지는 https://world-action-models.github.io/에서 확인할 수 있다.
English
World Action Models (WAMs) are embodied predictive-action models that make a forecast of the future available to action. Recent WAMs repurpose large video generation models, and a parallel line relies on language or vision-language backbones without a video-generation core. This rapid expansion has blurred the boundary among broad world models, video generation models, action-grounded video world models, Vision-Language-Action policies, and WAMs. This survey gives the field a common account. It first clarifies these boundaries, then organizes existing works through two complementary views. The first view asks what each method is required to generate, spanning rendered futures, latent futures, and video-generation-free action reasoning. The second view decomposes each method by predictive substrate, backbone, action coupling, and deployment regime. This anatomy supports a unified discussion of interactability, causality, persistence, physical plausibility, and generalization, followed by data, evaluation, and open challenges. Across these axes, a consistent design pattern emerges: WAMs are not simply video generators with action heads, but predictive-action methods whose design choices trade representational richness against compute, memory, latency, and action-label cost. The field is moving toward methods that generate less of the future while preserving what control requires. The survey homepage is available at https://world-action-models.github.io/.