Explorando la Evolución de la Cognición Física en la Generación de Videos: Una Revisión
Exploring the Evolution of Physics Cognition in Video Generation: A Survey
March 27, 2025
Autores: Minghui Lin, Xiang Wang, Yishan Wang, Shu Wang, Fengqi Dai, Pengxiang Ding, Cunxiang Wang, Zhengrong Zuo, Nong Sang, Siteng Huang, Donglin Wang
cs.AI
Resumen
Los recientes avances en la generación de videos han experimentado un progreso significativo, especialmente con el rápido desarrollo de los modelos de difusión. A pesar de esto, sus deficiencias en la cognición física han recibido gradualmente una atención generalizada: el contenido generado a menudo viola las leyes fundamentales de la física, cayendo en el dilema de "realismo visual pero absurdo físico". Los investigadores han comenzado a reconocer cada vez más la importancia de la fidelidad física en la generación de videos y han intentado integrar cogniciones físicas heurísticas, como representaciones de movimiento y conocimiento físico, en los sistemas generativos para simular escenarios dinámicos del mundo real. Considerando la falta de una visión sistemática en este campo, este estudio tiene como objetivo proporcionar un resumen exhaustivo de los diseños de arquitectura y sus aplicaciones para llenar este vacío. Específicamente, discutimos y organizamos el proceso evolutivo de la cognición física en la generación de videos desde una perspectiva de la ciencia cognitiva, mientras proponemos una taxonomía de tres niveles: 1) percepción de esquema básico para la generación, 2) cognición pasiva del conocimiento físico para la generación, y 3) cognición activa para la simulación del mundo, abarcando métodos de vanguardia, paradigmas clásicos y puntos de referencia. Posteriormente, enfatizamos los desafíos clave inherentes en este dominio y delineamos posibles vías para futuras investigaciones, contribuyendo a avanzar las fronteras de la discusión tanto en la academia como en la industria. A través de una revisión estructurada y un análisis interdisciplinario, este estudio tiene como objetivo proporcionar una guía direccional para el desarrollo de paradigmas de generación de videos interpretables, controlables y físicamente consistentes, impulsando así los modelos generativos desde la etapa de "mimetismo visual" hacia una nueva fase de "comprensión física similar a la humana".
English
Recent advancements in video generation have witnessed significant progress,
especially with the rapid advancement of diffusion models. Despite this, their
deficiencies in physical cognition have gradually received widespread attention
- generated content often violates the fundamental laws of physics, falling
into the dilemma of ''visual realism but physical absurdity". Researchers began
to increasingly recognize the importance of physical fidelity in video
generation and attempted to integrate heuristic physical cognition such as
motion representations and physical knowledge into generative systems to
simulate real-world dynamic scenarios. Considering the lack of a systematic
overview in this field, this survey aims to provide a comprehensive summary of
architecture designs and their applications to fill this gap. Specifically, we
discuss and organize the evolutionary process of physical cognition in video
generation from a cognitive science perspective, while proposing a three-tier
taxonomy: 1) basic schema perception for generation, 2) passive cognition of
physical knowledge for generation, and 3) active cognition for world
simulation, encompassing state-of-the-art methods, classical paradigms, and
benchmarks. Subsequently, we emphasize the inherent key challenges in this
domain and delineate potential pathways for future research, contributing to
advancing the frontiers of discussion in both academia and industry. Through
structured review and interdisciplinary analysis, this survey aims to provide
directional guidance for developing interpretable, controllable, and physically
consistent video generation paradigms, thereby propelling generative models
from the stage of ''visual mimicry'' towards a new phase of ''human-like
physical comprehension''.Summary
AI-Generated Summary