ChatPaper.aiChatPaper

人工知能による視覚世界のシミュレーション:ロードマップ

Simulating the Visual World with Artificial Intelligence: A Roadmap

November 11, 2025
著者: Jingtong Yue, Ziqi Huang, Zhaoxi Chen, Xintao Wang, Pengfei Wan, Ziwei Liu
cs.AI

要旨

ビデオ生成の景観は、視覚的に魅力的なクリップの生成から、インタラクションを支援し物理的な妥当性を維持する仮想環境の構築へと移行しつつある。これらの進展は、単なる視覚的生成器としてだけでなく、暗黙的な世界モデルとして機能するビデオ基盤モデルの出現を示唆している。世界モデルとは、現実または想像上の世界を支配する物理的ダイナミクス、エージェントと環境の相互作用、タスク計画をシミュレートするモデルである。本サーベイはこの進化を体系的に概観し、現代のビデオ基盤モデルを「暗黙的世界モデル」と「ビデオレンダラー」という二つの核心コンポーネントの結合として概念化する。世界モデルは物理法則、相互作用ダイナミクス、エージェント挙動を含む世界に関する構造化された知識を符号化する。これは、一貫した視覚的推論、長期的な時間的一貫性、目標駆動型計画を可能とする潜在的シミュレーションエンジンとして機能する。ビデオレンダラーはこの潜在シミュレーションを現実的な視覚観測に変換し、シミュレートされた世界への「窓」として実質的にビデオを生成する。我々はビデオ生成の進歩を4つの世代を通して追跡する。各世代で核心的能力が段階的に高度化し、最終的にはビデオ生成モデル上に構築された世界モデルに帰結する。これは内在的な物理的妥当性、リアルタイムマルチモーダルインタラクション、複数の時空間スケールに跨る計画能力を具現化する。各世代について、その核心的特徴を定義し、代表的研究を紹介し、ロボティクス、自動運転、インタラクティブゲームなどの応用領域を検討する。最後に、次世代世界モデルにおける未解決課題と設計原則について論じる。これには、これらのシステムを形成・評価する上でのエージェント知能の役割を含む。関連研究の最新リストはこちらで継続的に更新されている。
English
The landscape of video generation is shifting, from a focus on generating visually appealing clips to building virtual environments that support interaction and maintain physical plausibility. These developments point toward the emergence of video foundation models that function not only as visual generators but also as implicit world models, models that simulate the physical dynamics, agent-environment interactions, and task planning that govern real or imagined worlds. This survey provides a systematic overview of this evolution, conceptualizing modern video foundation models as the combination of two core components: an implicit world model and a video renderer. The world model encodes structured knowledge about the world, including physical laws, interaction dynamics, and agent behavior. It serves as a latent simulation engine that enables coherent visual reasoning, long-term temporal consistency, and goal-driven planning. The video renderer transforms this latent simulation into realistic visual observations, effectively producing videos as a "window" into the simulated world. We trace the progression of video generation through four generations, in which the core capabilities advance step by step, ultimately culminating in a world model, built upon a video generation model, that embodies intrinsic physical plausibility, real-time multimodal interaction, and planning capabilities spanning multiple spatiotemporal scales. For each generation, we define its core characteristics, highlight representative works, and examine their application domains such as robotics, autonomous driving, and interactive gaming. Finally, we discuss open challenges and design principles for next-generation world models, including the role of agent intelligence in shaping and evaluating these systems. An up-to-date list of related works is maintained at this link.
PDF293December 1, 2025