Explorando a Evolução da Cognição Física na Geração de Vídeos: Uma Revisão
Exploring the Evolution of Physics Cognition in Video Generation: A Survey
March 27, 2025
Autores: Minghui Lin, Xiang Wang, Yishan Wang, Shu Wang, Fengqi Dai, Pengxiang Ding, Cunxiang Wang, Zhengrong Zuo, Nong Sang, Siteng Huang, Donglin Wang
cs.AI
Resumo
Os recentes avanços na geração de vídeos têm testemunhado progressos significativos, especialmente com o rápido desenvolvimento dos modelos de difusão. Apesar disso, suas deficiências em cognição física têm gradualmente recebido ampla atenção - o conteúdo gerado frequentemente viola as leis fundamentais da física, caindo no dilema de "realismo visual, mas absurdo físico". Os pesquisadores começaram a reconhecer cada vez mais a importância da fidelidade física na geração de vídeos e tentaram integrar cognição física heurística, como representações de movimento e conhecimento físico, em sistemas generativos para simular cenários dinâmicos do mundo real. Considerando a falta de uma visão sistemática nesse campo, esta pesquisa visa fornecer um resumo abrangente dos designs de arquitetura e suas aplicações para preencher essa lacuna. Especificamente, discutimos e organizamos o processo evolutivo da cognição física na geração de vídeos a partir de uma perspectiva da ciência cognitiva, enquanto propomos uma taxonomia de três níveis: 1) percepção de esquema básico para geração, 2) cognição passiva de conhecimento físico para geração e 3) cognição ativa para simulação de mundo, abrangendo métodos state-of-the-art, paradigmas clássicos e benchmarks. Posteriormente, enfatizamos os desafios-chave inerentes a esse domínio e delineamos possíveis caminhos para pesquisas futuras, contribuindo para avançar as fronteiras da discussão tanto na academia quanto na indústria. Por meio de uma revisão estruturada e análise interdisciplinar, esta pesquisa visa fornecer orientação direcional para o desenvolvimento de paradigmas de geração de vídeos interpretáveis, controláveis e fisicamente consistentes, impulsionando assim os modelos generativos do estágio de "mimetização visual" para uma nova fase de "compreensão física semelhante à humana".
English
Recent advancements in video generation have witnessed significant progress,
especially with the rapid advancement of diffusion models. Despite this, their
deficiencies in physical cognition have gradually received widespread attention
- generated content often violates the fundamental laws of physics, falling
into the dilemma of ''visual realism but physical absurdity". Researchers began
to increasingly recognize the importance of physical fidelity in video
generation and attempted to integrate heuristic physical cognition such as
motion representations and physical knowledge into generative systems to
simulate real-world dynamic scenarios. Considering the lack of a systematic
overview in this field, this survey aims to provide a comprehensive summary of
architecture designs and their applications to fill this gap. Specifically, we
discuss and organize the evolutionary process of physical cognition in video
generation from a cognitive science perspective, while proposing a three-tier
taxonomy: 1) basic schema perception for generation, 2) passive cognition of
physical knowledge for generation, and 3) active cognition for world
simulation, encompassing state-of-the-art methods, classical paradigms, and
benchmarks. Subsequently, we emphasize the inherent key challenges in this
domain and delineate potential pathways for future research, contributing to
advancing the frontiers of discussion in both academia and industry. Through
structured review and interdisciplinary analysis, this survey aims to provide
directional guidance for developing interpretable, controllable, and physically
consistent video generation paradigms, thereby propelling generative models
from the stage of ''visual mimicry'' towards a new phase of ''human-like
physical comprehension''.Summary
AI-Generated Summary