Het verkennen van de evolutie van fysica-cognitie in videogeneratie: een overzicht
Exploring the Evolution of Physics Cognition in Video Generation: A Survey
March 27, 2025
Auteurs: Minghui Lin, Xiang Wang, Yishan Wang, Shu Wang, Fengqi Dai, Pengxiang Ding, Cunxiang Wang, Zhengrong Zuo, Nong Sang, Siteng Huang, Donglin Wang
cs.AI
Samenvatting
Recente vooruitgang in videogeneratie heeft aanzienlijke vooruitgang geboekt, vooral met de snelle ontwikkeling van diffusiemodellen. Desondanks is er steeds meer aandacht voor hun tekortkomingen in fysieke cognitie - gegenereerde inhoud overtreedt vaak de fundamentele wetten van de fysica, wat leidt tot het dilemma van "visuele realiteit maar fysieke absurditeit". Onderzoekers zijn zich steeds meer bewust geworden van het belang van fysieke nauwkeurigheid in videogeneratie en hebben geprobeerd heuristische fysieke cognitie, zoals bewegingsrepresentaties en fysieke kennis, te integreren in generatieve systemen om realistische dynamische scenario's te simuleren. Gezien het ontbreken van een systematisch overzicht op dit gebied, beoogt deze survey een uitgebreide samenvatting te bieden van architectuurontwerpen en hun toepassingen om deze leemte op te vullen. Specifiek bespreken en organiseren we het evolutieproces van fysieke cognitie in videogeneratie vanuit een cognitief wetenschappelijk perspectief, terwijl we een driedelige taxonomie voorstellen: 1) basischemaperceptie voor generatie, 2) passieve cognitie van fysieke kennis voor generatie, en 3) actieve cognitie voor wereldsimulatie, waarbij state-of-the-art methoden, klassieke paradigma's en benchmarks worden behandeld. Vervolgens benadrukken we de inherente kernuitdagingen in dit domein en schetsen we mogelijke onderzoeksrichtingen voor de toekomst, wat bijdraagt aan het bevorderen van de discussie in zowel academische als industriële kringen. Door gestructureerde review en interdisciplinaire analyse beoogt deze survey richtinggevende begeleiding te bieden voor het ontwikkelen van interpreteerbare, controleerbare en fysiek consistente videogeneratieparadigma's, waardoor generatieve modellen worden voortgestuwd van het stadium van "visuele nabootsing" naar een nieuwe fase van "mensachtig fysiek begrip".
English
Recent advancements in video generation have witnessed significant progress,
especially with the rapid advancement of diffusion models. Despite this, their
deficiencies in physical cognition have gradually received widespread attention
- generated content often violates the fundamental laws of physics, falling
into the dilemma of ''visual realism but physical absurdity". Researchers began
to increasingly recognize the importance of physical fidelity in video
generation and attempted to integrate heuristic physical cognition such as
motion representations and physical knowledge into generative systems to
simulate real-world dynamic scenarios. Considering the lack of a systematic
overview in this field, this survey aims to provide a comprehensive summary of
architecture designs and their applications to fill this gap. Specifically, we
discuss and organize the evolutionary process of physical cognition in video
generation from a cognitive science perspective, while proposing a three-tier
taxonomy: 1) basic schema perception for generation, 2) passive cognition of
physical knowledge for generation, and 3) active cognition for world
simulation, encompassing state-of-the-art methods, classical paradigms, and
benchmarks. Subsequently, we emphasize the inherent key challenges in this
domain and delineate potential pathways for future research, contributing to
advancing the frontiers of discussion in both academia and industry. Through
structured review and interdisciplinary analysis, this survey aims to provide
directional guidance for developing interpretable, controllable, and physically
consistent video generation paradigms, thereby propelling generative models
from the stage of ''visual mimicry'' towards a new phase of ''human-like
physical comprehension''.Summary
AI-Generated Summary