Исследование эволюции когнитивного восприятия физики в генерации видео: обзор
Exploring the Evolution of Physics Cognition in Video Generation: A Survey
March 27, 2025
Авторы: Minghui Lin, Xiang Wang, Yishan Wang, Shu Wang, Fengqi Dai, Pengxiang Ding, Cunxiang Wang, Zhengrong Zuo, Nong Sang, Siteng Huang, Donglin Wang
cs.AI
Аннотация
Последние достижения в области генерации видео демонстрируют значительный прогресс, особенно благодаря быстрому развитию диффузионных моделей. Однако их недостатки в физическом восприятии постепенно привлекают всё больше внимания — создаваемый контент часто нарушает фундаментальные законы физики, попадая в ловушку «визуального реализма, но физического абсурда». Исследователи всё чаще осознают важность физической достоверности в генерации видео и пытаются интегрировать эвристическое физическое восприятие, такое как представления движения и физические знания, в генеративные системы для моделирования реальных динамических сценариев. Учитывая отсутствие систематического обзора в этой области, данная работа ставит целью восполнить этот пробел, предоставив всесторонний обзор архитектурных решений и их применений. В частности, мы обсуждаем и систематизируем эволюцию физического восприятия в генерации видео с точки зрения когнитивной науки, предлагая трехуровневую таксономию: 1) базовое восприятие схем для генерации, 2) пассивное восприятие физических знаний для генерации и 3) активное восприятие для моделирования мира, охватывая современные методы, классические парадигмы и бенчмарки. Далее мы подчеркиваем ключевые вызовы в этой области и намечаем потенциальные направления для будущих исследований, способствуя продвижению дискуссии как в академических кругах, так и в индустрии. Благодаря структурированному обзору и междисциплинарному анализу, данная работа стремится предоставить направляющие рекомендации для разработки интерпретируемых, управляемых и физически согласованных парадигм генерации видео, тем самым продвигая генеративные модели от этапа «визуального подражания» к новой фазе «человекоподобного физического понимания».
English
Recent advancements in video generation have witnessed significant progress,
especially with the rapid advancement of diffusion models. Despite this, their
deficiencies in physical cognition have gradually received widespread attention
- generated content often violates the fundamental laws of physics, falling
into the dilemma of ''visual realism but physical absurdity". Researchers began
to increasingly recognize the importance of physical fidelity in video
generation and attempted to integrate heuristic physical cognition such as
motion representations and physical knowledge into generative systems to
simulate real-world dynamic scenarios. Considering the lack of a systematic
overview in this field, this survey aims to provide a comprehensive summary of
architecture designs and their applications to fill this gap. Specifically, we
discuss and organize the evolutionary process of physical cognition in video
generation from a cognitive science perspective, while proposing a three-tier
taxonomy: 1) basic schema perception for generation, 2) passive cognition of
physical knowledge for generation, and 3) active cognition for world
simulation, encompassing state-of-the-art methods, classical paradigms, and
benchmarks. Subsequently, we emphasize the inherent key challenges in this
domain and delineate potential pathways for future research, contributing to
advancing the frontiers of discussion in both academia and industry. Through
structured review and interdisciplinary analysis, this survey aims to provide
directional guidance for developing interpretable, controllable, and physically
consistent video generation paradigms, thereby propelling generative models
from the stage of ''visual mimicry'' towards a new phase of ''human-like
physical comprehension''.Summary
AI-Generated Summary