Exploration de l'évolution de la cognition physique dans la génération de vidéos : une étude
Exploring the Evolution of Physics Cognition in Video Generation: A Survey
March 27, 2025
Auteurs: Minghui Lin, Xiang Wang, Yishan Wang, Shu Wang, Fengqi Dai, Pengxiang Ding, Cunxiang Wang, Zhengrong Zuo, Nong Sang, Siteng Huang, Donglin Wang
cs.AI
Résumé
Les récents progrès dans la génération vidéo ont connu des avancées significatives, notamment avec le développement rapide des modèles de diffusion. Malgré cela, leurs lacunes en matière de cognition physique ont progressivement attiré une attention croissante - le contenu généré viole souvent les lois fondamentales de la physique, tombant dans le piège du "réalisme visuel mais de l'absurdité physique". Les chercheurs ont commencé à reconnaître de plus en plus l'importance de la fidélité physique dans la génération vidéo et ont tenté d'intégrer des heuristiques de cognition physique, telles que les représentations du mouvement et les connaissances physiques, dans les systèmes génératifs pour simuler des scénarios dynamiques réalistes. Considérant le manque d'une vue d'ensemble systématique dans ce domaine, cette étude vise à fournir un résumé complet des architectures de conception et de leurs applications pour combler cette lacune. Plus précisément, nous discutons et organisons le processus évolutif de la cognition physique dans la génération vidéo d'un point de vue des sciences cognitives, tout en proposant une taxonomie à trois niveaux : 1) perception de schéma de base pour la génération, 2) cognition passive des connaissances physiques pour la génération, et 3) cognition active pour la simulation du monde, englobant les méthodes de pointe, les paradigmes classiques et les benchmarks. Par la suite, nous mettons en évidence les défis clés inhérents à ce domaine et décrivons les voies potentielles pour les recherches futures, contribuant à faire progresser les frontières de la discussion tant dans le milieu académique que dans l'industrie. Grâce à une revue structurée et à une analyse interdisciplinaire, cette étude vise à fournir des orientations pour le développement de paradigmes de génération vidéo interprétables, contrôlables et physiquement cohérents, propulsant ainsi les modèles génératifs du stade de "l'imitation visuelle" vers une nouvelle phase de "compréhension physique humaine".
English
Recent advancements in video generation have witnessed significant progress,
especially with the rapid advancement of diffusion models. Despite this, their
deficiencies in physical cognition have gradually received widespread attention
- generated content often violates the fundamental laws of physics, falling
into the dilemma of ''visual realism but physical absurdity". Researchers began
to increasingly recognize the importance of physical fidelity in video
generation and attempted to integrate heuristic physical cognition such as
motion representations and physical knowledge into generative systems to
simulate real-world dynamic scenarios. Considering the lack of a systematic
overview in this field, this survey aims to provide a comprehensive summary of
architecture designs and their applications to fill this gap. Specifically, we
discuss and organize the evolutionary process of physical cognition in video
generation from a cognitive science perspective, while proposing a three-tier
taxonomy: 1) basic schema perception for generation, 2) passive cognition of
physical knowledge for generation, and 3) active cognition for world
simulation, encompassing state-of-the-art methods, classical paradigms, and
benchmarks. Subsequently, we emphasize the inherent key challenges in this
domain and delineate potential pathways for future research, contributing to
advancing the frontiers of discussion in both academia and industry. Through
structured review and interdisciplinary analysis, this survey aims to provide
directional guidance for developing interpretable, controllable, and physically
consistent video generation paradigms, thereby propelling generative models
from the stage of ''visual mimicry'' towards a new phase of ''human-like
physical comprehension''.Summary
AI-Generated Summary