인공지능을 통한 시각 세계 시뮬레이션: 로드맵
Simulating the Visual World with Artificial Intelligence: A Roadmap
November 11, 2025
저자: Jingtong Yue, Ziqi Huang, Zhaoxi Chen, Xintao Wang, Pengfei Wan, Ziwei Liu
cs.AI
초록
비디오 생성 분야의 패러다임이 시각적으로 매력적인 클립 생성에 중점을 두던 것에서, 상호작용을 지원하고 물리적 타당성을 유지하는 가상 환경 구축으로 전환되고 있습니다. 이러한 발전은 비디오 생성 모델이 단순한 시각 생성기를 넘어, 실제 또는 상상된 세계를 지배하는 물리적 역학, 에이전트-환경 상호작용, 작업 계획을 시뮬레이션하는 암묵적 세계 모델로서 기능하는 비디오 파운데이션 모델의 출현을 예고합니다. 본 설문 논문은 이러한 진화를 체계적으로 개관하며, 현대 비디오 파운데이션 모델을 암묵적 세계 모델과 비디오 렌더러라는 두 가지 핵심 구성 요소의 결합으로 개념화합니다. 세계 모델은 물리 법칙, 상호작용 역학, 에이전트 행동을 포함한 세계에 대한 구조화된 지식을 인코딩합니다. 이는 일관된 시각적 추론, 장기간의 시간적 일관성, 목표 주도 계획을 가능하게 하는 잠재 시뮬레이션 엔진 역할을 합니다. 비디오 렌더러는 이 잠재 시뮬레이션을 현실적인 시각 관측치로 변환하여, 시뮬레이션된 세계를 들여다보는 "창"처럼 비디오를 효과적으로 생성합니다. 우리는 비디오 생성의 발전을 4세대에 걸쳐 추적하며, 각 세대별 핵심 역량이 단계적으로 향상되어 궁극적으로 비디오 생성 모델을 기반으로 고유한 물리적 타당성, 실시간 다중 모드 상호작용, 다중 시공간 규모를 아우르는 계획 능력을 구현하는 세계 모델로 진화하는 과정을 살펴봅니다. 각 세대에 대해 우리는 핵심 특성을 정의하고 대표적인 연구를 강조하며, 로보틱스, 자율 주행, 인터랙티브 게임과 같은 적용 분야를 검토합니다. 마지막으로, 에이전트 지능이 이러한 시스템을 형성하고 평가하는 데扮演하는 역할을 포함하여 차세대 세계 모델을 위한 개방형 과제와 설계 원칙에 대해 논의합니다. 관련 연구의 최신 목록은 해당 링크에서 확인할 수 있습니다.
English
The landscape of video generation is shifting, from a focus on generating visually appealing clips to building virtual environments that support interaction and maintain physical plausibility. These developments point toward the emergence of video foundation models that function not only as visual generators but also as implicit world models, models that simulate the physical dynamics, agent-environment interactions, and task planning that govern real or imagined worlds. This survey provides a systematic overview of this evolution, conceptualizing modern video foundation models as the combination of two core components: an implicit world model and a video renderer. The world model encodes structured knowledge about the world, including physical laws, interaction dynamics, and agent behavior. It serves as a latent simulation engine that enables coherent visual reasoning, long-term temporal consistency, and goal-driven planning. The video renderer transforms this latent simulation into realistic visual observations, effectively producing videos as a "window" into the simulated world. We trace the progression of video generation through four generations, in which the core capabilities advance step by step, ultimately culminating in a world model, built upon a video generation model, that embodies intrinsic physical plausibility, real-time multimodal interaction, and planning capabilities spanning multiple spatiotemporal scales. For each generation, we define its core characteristics, highlight representative works, and examine their application domains such as robotics, autonomous driving, and interactive gaming. Finally, we discuss open challenges and design principles for next-generation world models, including the role of agent intelligence in shaping and evaluating these systems. An up-to-date list of related works is maintained at this link.