Explorando a Evolução da Cognição Física na Geração de Vídeos: Uma Revisão

Resumo

Os recentes avanços na geração de vídeos têm testemunhado progressos significativos, especialmente com o rápido desenvolvimento dos modelos de difusão. Apesar disso, suas deficiências em cognição física têm gradualmente recebido ampla atenção - o conteúdo gerado frequentemente viola as leis fundamentais da física, caindo no dilema de "realismo visual, mas absurdo físico". Os pesquisadores começaram a reconhecer cada vez mais a importância da fidelidade física na geração de vídeos e tentaram integrar cognição física heurística, como representações de movimento e conhecimento físico, em sistemas generativos para simular cenários dinâmicos do mundo real. Considerando a falta de uma visão sistemática nesse campo, esta pesquisa visa fornecer um resumo abrangente dos designs de arquitetura e suas aplicações para preencher essa lacuna. Especificamente, discutimos e organizamos o processo evolutivo da cognição física na geração de vídeos a partir de uma perspectiva da ciência cognitiva, enquanto propomos uma taxonomia de três níveis: 1) percepção de esquema básico para geração, 2) cognição passiva de conhecimento físico para geração e 3) cognição ativa para simulação de mundo, abrangendo métodos state-of-the-art, paradigmas clássicos e benchmarks. Posteriormente, enfatizamos os desafios-chave inerentes a esse domínio e delineamos possíveis caminhos para pesquisas futuras, contribuindo para avançar as fronteiras da discussão tanto na academia quanto na indústria. Por meio de uma revisão estruturada e análise interdisciplinar, esta pesquisa visa fornecer orientação direcional para o desenvolvimento de paradigmas de geração de vídeos interpretáveis, controláveis e fisicamente consistentes, impulsionando assim os modelos generativos do estágio de "mimetização visual" para uma nova fase de "compreensão física semelhante à humana".

English

Recent advancements in video generation have witnessed significant progress, especially with the rapid advancement of diffusion models. Despite this, their deficiencies in physical cognition have gradually received widespread attention - generated content often violates the fundamental laws of physics, falling into the dilemma of ''visual realism but physical absurdity". Researchers began to increasingly recognize the importance of physical fidelity in video generation and attempted to integrate heuristic physical cognition such as motion representations and physical knowledge into generative systems to simulate real-world dynamic scenarios. Considering the lack of a systematic overview in this field, this survey aims to provide a comprehensive summary of architecture designs and their applications to fill this gap. Specifically, we discuss and organize the evolutionary process of physical cognition in video generation from a cognitive science perspective, while proposing a three-tier taxonomy: 1) basic schema perception for generation, 2) passive cognition of physical knowledge for generation, and 3) active cognition for world simulation, encompassing state-of-the-art methods, classical paradigms, and benchmarks. Subsequently, we emphasize the inherent key challenges in this domain and delineate potential pathways for future research, contributing to advancing the frontiers of discussion in both academia and industry. Through structured review and interdisciplinary analysis, this survey aims to provide directional guidance for developing interpretable, controllable, and physically consistent video generation paradigms, thereby propelling generative models from the stage of ''visual mimicry'' towards a new phase of ''human-like physical comprehension''.

Explorando a Evolução da Cognição Física na Geração de Vídeos: Uma Revisão

Exploring the Evolution of Physics Cognition in Video Generation: A Survey

Resumo

Support