Моделирование визуального мира с помощью искусственного интеллекта: дорожная карта
Simulating the Visual World with Artificial Intelligence: A Roadmap
November 11, 2025
Авторы: Jingtong Yue, Ziqi Huang, Zhaoxi Chen, Xintao Wang, Pengfei Wan, Ziwei Liu
cs.AI
Аннотация
Ландшафт генерации видео претерпевает изменения: акцент смещается с создания визуально привлекательных роликов на построение виртуальных сред, поддерживающих взаимодействие и сохраняющих физическую правдоподобность. Эти тенденции указывают на появление фоновых моделей видео, которые функционируют не только как визуальные генераторы, но и как неявные мировые модели — системы, симулирующие физическую динамику, взаимодействие агентов со средой и планирование задач, присущие реальным или воображаемым мирам. Данный обзор предлагает систематический взгляд на эту эволюцию, концептуализируя современные фоновые модели видео как комбинацию двух ключевых компонентов: неявной мировой модели и видеорендерера. Мировая модель кодирует структурированные знания о мире, включая физические законы, динамику взаимодействий и поведение агентов. Она служит латентным движком симуляции, обеспечивающим согласованное визуальное рассуждение, долгосрочную временную согласованность и целеориентированное планирование. Видеорендерер преобразует эту латентную симуляцию в реалистичные визуальные наблюдения, фактически создавая видео как «окно» в смоделированный мир. Мы прослеживаем прогресс генерации видео через четыре поколения, в которых ключевые возможности последовательно развиваются, достигая кульминации в мировой модели, построенной на основе модели генерации видео и воплощающей внутреннюю физическую правдоподобность, интерактивность в реальном времени и возможности планирования на множественных пространственно-временных масштабах. Для каждого поколения мы определяем его основные характеристики, выделяем репрезентативные работы и анализируем их области применения, такие как робототехника, автономное вождение и интерактивные игры. В заключение обсуждаются открытые challenges и принципы проектирования моделей следующего поколения, включая роль агентного интеллекта в формировании и оценке таких систем. Актуальный список связанных работ поддерживается по данной ссылке.
English
The landscape of video generation is shifting, from a focus on generating visually appealing clips to building virtual environments that support interaction and maintain physical plausibility. These developments point toward the emergence of video foundation models that function not only as visual generators but also as implicit world models, models that simulate the physical dynamics, agent-environment interactions, and task planning that govern real or imagined worlds. This survey provides a systematic overview of this evolution, conceptualizing modern video foundation models as the combination of two core components: an implicit world model and a video renderer. The world model encodes structured knowledge about the world, including physical laws, interaction dynamics, and agent behavior. It serves as a latent simulation engine that enables coherent visual reasoning, long-term temporal consistency, and goal-driven planning. The video renderer transforms this latent simulation into realistic visual observations, effectively producing videos as a "window" into the simulated world. We trace the progression of video generation through four generations, in which the core capabilities advance step by step, ultimately culminating in a world model, built upon a video generation model, that embodies intrinsic physical plausibility, real-time multimodal interaction, and planning capabilities spanning multiple spatiotemporal scales. For each generation, we define its core characteristics, highlight representative works, and examine their application domains such as robotics, autonomous driving, and interactive gaming. Finally, we discuss open challenges and design principles for next-generation world models, including the role of agent intelligence in shaping and evaluating these systems. An up-to-date list of related works is maintained at this link.