Em Direção à Geração de Vídeos Fisicamente Plausíveis via Planejamento com VLM
Towards Physically Plausible Video Generation via VLM Planning
March 30, 2025
Autores: Xindi Yang, Baolu Li, Yiming Zhang, Zhenfei Yin, Lei Bai, Liqian Ma, Zhiyong Wang, Jianfei Cai, Tien-Tsin Wong, Huchuan Lu, Xu Jia
cs.AI
Resumo
Modelos de difusão de vídeo (VDMs) avançaram significativamente nos últimos anos, possibilitando a geração de vídeos altamente realistas e atraindo a atenção da comunidade por seu potencial como simuladores de mundo. No entanto, apesar de suas capacidades, os VDMs frequentemente falham em produzir vídeos fisicamente plausíveis devido a uma falta inerente de compreensão da física, resultando em dinâmicas e sequências de eventos incorretas. Para abordar essa limitação, propomos uma nova estrutura de geração de imagem para vídeo em dois estágios que incorpora explicitamente a física. No primeiro estágio, empregamos um Modelo de Linguagem Visual (VLM) como um planejador de movimento de granularidade grossa, integrando raciocínio em cadeia de pensamento e consciente da física para prever trajetórias/mudanças de movimento aproximadas que se assemelham à dinâmica física do mundo real, garantindo a consistência interquadros. No segundo estágio, usamos as trajetórias/mudanças de movimento previstas para guiar a geração de vídeo de um VDM. Como as trajetórias/mudanças de movimento previstas são aproximadas, ruído é adicionado durante a inferência para proporcionar liberdade ao VDM na geração de movimentos com detalhes mais refinados. Resultados experimentais extensivos demonstram que nossa estrutura pode produzir movimento fisicamente plausível, e avaliações comparativas destacam a notável superioridade de nossa abordagem sobre os métodos existentes. Mais resultados em vídeo estão disponíveis em nossa Página do Projeto: https://madaoer.github.io/projects/physically_plausible_video_generation.
English
Video diffusion models (VDMs) have advanced significantly in recent years,
enabling the generation of highly realistic videos and drawing the attention of
the community in their potential as world simulators. However, despite their
capabilities, VDMs often fail to produce physically plausible videos due to an
inherent lack of understanding of physics, resulting in incorrect dynamics and
event sequences. To address this limitation, we propose a novel two-stage
image-to-video generation framework that explicitly incorporates physics. In
the first stage, we employ a Vision Language Model (VLM) as a coarse-grained
motion planner, integrating chain-of-thought and physics-aware reasoning to
predict a rough motion trajectories/changes that approximate real-world
physical dynamics while ensuring the inter-frame consistency. In the second
stage, we use the predicted motion trajectories/changes to guide the video
generation of a VDM. As the predicted motion trajectories/changes are rough,
noise is added during inference to provide freedom to the VDM in generating
motion with more fine details. Extensive experimental results demonstrate that
our framework can produce physically plausible motion, and comparative
evaluations highlight the notable superiority of our approach over existing
methods. More video results are available on our Project Page:
https://madaoer.github.io/projects/physically_plausible_video_generation.Summary
AI-Generated Summary