**주체적 세계 모델링: 기초, 능력, 법칙, 그리고 그 이상** (또는 학술 문헌에서 더 자연스러운 표현을 위해) **주체적 세계 모델링: 토대, 역량, 법칙, 그리고 미래 전망**
Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond
April 24, 2026
저자: Meng Chu, Xuan Billy Zhang, Kevin Qinghong Lin, Lingdong Kong, Jize Zhang, Teng Tu, Weijian Ma, Ziqi Huang, Senqiao Yang, Wei Huang, Yeying Jin, Zhefan Rao, Jinhui Ye, Xinyu Lin, Xichen Zhang, Qisheng Hu, Shuai Yang, Leyang Shen, Wei Chow, Yifei Dong, Fengyi Wu, Quanyu Long, Bin Xia, Shaozuo Yu, Mingkang Zhu, Wenhu Zhang, Jiehui Huang, Haokun Gui, Haoxuan Che, Long Chen, Qifeng Chen, Wenxuan Zhang, Wenya Wang, Xiaojuan Qi, Yang Deng, Yanwei Li, Mike Zheng Shou, Zhi-Qi Cheng, See-Kiong Ng, Ziwei Liu, Philip Torr, Jiaya Jia
cs.AI
초록
인공지능 시스템이 단순 텍스트 생성에서 지속적 상호작용을 통한 목표 달성으로 나아감에 따라 환경 역학을 모델링하는 능력이 핵심 병목 현상으로 대두되고 있습니다. 객체를 조작하고, 소프트웨어를 탐색하며, 타인과 협조하거나 실험을 설계하는 에이전트는 예측적 환경 모델을 필요로 하지만, '월드 모델'이라는 용어는 연구 커뮤니티마다 상이한 의미를 지닙니다. 본 논문은 두 축을 따라 구성된 "수준 × 법칙" 분류 체계를 제안합니다. 첫 번째 축은 세 가지 능력 수준을 정의합니다: L1 예측기는 단일 단계 국소 전이 연산자를 학습하고, L2 시뮬레이터는 이를 도메인 법칙을 준수하는 다단계 행동 조건부 롤아웃으로 구성하며, L3 진화기는 예측이 새로운 증거와 대조되어 실패할 경우 자율적으로 자체 모델을 수정합니다. 두 번째 축은 네 가지 지배 법칙 영역(물리적, 디지털, 사회적, 과학적)을 식별합니다. 이러한 영역은 월드 모델이 충족해야 할 제약 조건과 실패 가능성이 높은 지점을 결정합니다. 본 프레임워크를 활용하여 모델 기반 강화 학습, 비디오 생성, 웹 및 GUI 에이전트, 다중 에이전트 사회 시뮬레이션, AI 기반 과학적 발견을 아우르는 400편 이상의 연구를 종합하고 100여 가지 대표 시스템을 요약합니다. 수준-영역 쌍별 방법론, 실패 모드, 평가 관행을 분석하며, 의사결정 중심 평가 원칙과 최소 재현 가능 평가 패키지를 제안하고, 아키텍처 지침, 미해결 과제 및 거버넌스 문제를 제시합니다. 이를 통해 도출된 로드맵은 기존에 고립되었던 연구 커뮤니티를 연결하고, 수동적 다음 단계 예측에서 에이전트가 운영하는 환경을 시뮬레이션하고 궁극적으로 재형성할 수 있는 월드 모델로 나아가는 경로를 제시합니다.
English
As AI systems move from generating text to accomplishing goals through sustained interaction, the ability to model environment dynamics becomes a central bottleneck. Agents that manipulate objects, navigate software, coordinate with others, or design experiments require predictive environment models, yet the term world model carries different meanings across research communities. We introduce a "levels x laws" taxonomy organized along two axes. The first defines three capability levels: L1 Predictor, which learns one-step local transition operators; L2 Simulator, which composes them into multi-step, action-conditioned rollouts that respect domain laws; and L3 Evolver, which autonomously revises its own model when predictions fail against new evidence. The second identifies four governing-law regimes: physical, digital, social, and scientific. These regimes determine what constraints a world model must satisfy and where it is most likely to fail. Using this framework, we synthesize over 400 works and summarize more than 100 representative systems spanning model-based reinforcement learning, video generation, web and GUI agents, multi-agent social simulation, and AI-driven scientific discovery. We analyze methods, failure modes, and evaluation practices across level-regime pairs, propose decision-centric evaluation principles and a minimal reproducible evaluation package, and outline architectural guidance, open problems, and governance challenges. The resulting roadmap connects previously isolated communities and charts a path from passive next-step prediction toward world models that can simulate, and ultimately reshape, the environments in which agents operate.