비디오 생성에서 물리학 인식의 진화 탐구: 연구 동향 분석
Exploring the Evolution of Physics Cognition in Video Generation: A Survey
March 27, 2025
저자: Minghui Lin, Xiang Wang, Yishan Wang, Shu Wang, Fengqi Dai, Pengxiang Ding, Cunxiang Wang, Zhengrong Zuo, Nong Sang, Siteng Huang, Donglin Wang
cs.AI
초록
최근 비디오 생성 분야에서는 특히 확산 모델(diffusion models)의 급속한 발전으로 인해 상당한 진전이 이루어졌습니다. 그러나 이러한 모델들이 물리적 인지(physical cognition) 측면에서 보이는 한계점이 점차 널리 주목받고 있습니다. 생성된 콘텐츠가 종종 물리학의 기본 법칙을 위반하며, '시각적 현실성은 있으나 물리적 부조리성'이라는 딜레마에 빠지는 경우가 많습니다. 이에 따라 연구자들은 비디오 생성에서 물리적 정확성(physical fidelity)의 중요성을 점점 더 인식하게 되었고, 동작 표현(motion representations) 및 물리적 지식(physical knowledge)과 같은 경험적 물리적 인지를 생성 시스템에 통합하여 현실 세계의 동적 시나리오를 시뮬레이션하려는 시도를 하고 있습니다. 이 분야에서 체계적인 개요가 부족한 점을 고려하여, 본 조사 논문은 이러한 공백을 메우기 위해 아키텍처 설계와 그 응용에 대한 포괄적인 요약을 제공하고자 합니다. 구체적으로, 우리는 인지과학(cognitive science) 관점에서 비디오 생성에서의 물리적 인지의 진화 과정을 논의하고 정리하며, 세 가지 계층적 분류 체계를 제안합니다: 1) 생성을 위한 기본 스키마 인지(basic schema perception), 2) 생성을 위한 물리적 지식의 수동적 인지(passive cognition of physical knowledge), 3) 세계 시뮬레이션을 위한 능동적 인지(active cognition for world simulation). 이는 최신 방법론, 고전적 패러다임, 벤치마크를 모두 포함합니다. 이후, 우리는 이 분야의 본질적인 주요 과제를 강조하고 향후 연구를 위한 잠재적 경로를 제시함으로써 학계와 산업계의 논의를 더욱 발전시키고자 합니다. 구조화된 리뷰와 학제간 분석을 통해, 본 조사 논문은 해석 가능하고(interpretable), 제어 가능하며(controllable), 물리적으로 일관된(physically consistent) 비디오 생성 패러다임을 개발하기 위한 방향성 있는 지침을 제공하고자 합니다. 이를 통해 생성 모델이 '시각적 모방(visual mimicry)' 단계를 넘어 '인간과 유사한 물리적 이해(human-like physical comprehension)'라는 새로운 단계로 나아가도록 추진하는 데 기여하고자 합니다.
English
Recent advancements in video generation have witnessed significant progress,
especially with the rapid advancement of diffusion models. Despite this, their
deficiencies in physical cognition have gradually received widespread attention
- generated content often violates the fundamental laws of physics, falling
into the dilemma of ''visual realism but physical absurdity". Researchers began
to increasingly recognize the importance of physical fidelity in video
generation and attempted to integrate heuristic physical cognition such as
motion representations and physical knowledge into generative systems to
simulate real-world dynamic scenarios. Considering the lack of a systematic
overview in this field, this survey aims to provide a comprehensive summary of
architecture designs and their applications to fill this gap. Specifically, we
discuss and organize the evolutionary process of physical cognition in video
generation from a cognitive science perspective, while proposing a three-tier
taxonomy: 1) basic schema perception for generation, 2) passive cognition of
physical knowledge for generation, and 3) active cognition for world
simulation, encompassing state-of-the-art methods, classical paradigms, and
benchmarks. Subsequently, we emphasize the inherent key challenges in this
domain and delineate potential pathways for future research, contributing to
advancing the frontiers of discussion in both academia and industry. Through
structured review and interdisciplinary analysis, this survey aims to provide
directional guidance for developing interpretable, controllable, and physically
consistent video generation paradigms, thereby propelling generative models
from the stage of ''visual mimicry'' towards a new phase of ''human-like
physical comprehension''.Summary
AI-Generated Summary