Hacia la Generación de Vídeos Físicamente Plausibles mediante Planificación con Modelos de Lenguaje Visual
Towards Physically Plausible Video Generation via VLM Planning
March 30, 2025
Autores: Xindi Yang, Baolu Li, Yiming Zhang, Zhenfei Yin, Lei Bai, Liqian Ma, Zhiyong Wang, Jianfei Cai, Tien-Tsin Wong, Huchuan Lu, Xu Jia
cs.AI
Resumen
Los modelos de difusión de video (VDMs, por sus siglas en inglés) han avanzado significativamente en los últimos años, permitiendo la generación de videos altamente realistas y captando la atención de la comunidad por su potencial como simuladores del mundo. Sin embargo, a pesar de sus capacidades, los VDMs a menudo no logran producir videos físicamente plausibles debido a una falta inherente de comprensión de la física, lo que resulta en dinámicas incorrectas y secuencias de eventos erróneas. Para abordar esta limitación, proponemos un novedoso marco de generación de imagen a video en dos etapas que incorpora explícitamente la física. En la primera etapa, empleamos un Modelo de Lenguaje Visual (VLM, por sus siglas en inglés) como un planificador de movimiento de grano grueso, integrando razonamiento en cadena de pensamiento y consciente de la física para predecir trayectorias/cambios de movimiento aproximados que se asemejan a las dinámicas físicas del mundo real, asegurando al mismo tiempo la consistencia entre fotogramas. En la segunda etapa, utilizamos las trayectorias/cambios de movimiento predichos para guiar la generación de video de un VDM. Dado que las trayectorias/cambios de movimiento predichos son aproximados, se añade ruido durante la inferencia para proporcionar libertad al VDM en la generación de movimientos con detalles más finos. Los resultados experimentales extensivos demuestran que nuestro marco puede producir movimientos físicamente plausibles, y las evaluaciones comparativas destacan la notable superioridad de nuestro enfoque sobre los métodos existentes. Más resultados de video están disponibles en nuestra Página del Proyecto: https://madaoer.github.io/projects/physically_plausible_video_generation.
English
Video diffusion models (VDMs) have advanced significantly in recent years,
enabling the generation of highly realistic videos and drawing the attention of
the community in their potential as world simulators. However, despite their
capabilities, VDMs often fail to produce physically plausible videos due to an
inherent lack of understanding of physics, resulting in incorrect dynamics and
event sequences. To address this limitation, we propose a novel two-stage
image-to-video generation framework that explicitly incorporates physics. In
the first stage, we employ a Vision Language Model (VLM) as a coarse-grained
motion planner, integrating chain-of-thought and physics-aware reasoning to
predict a rough motion trajectories/changes that approximate real-world
physical dynamics while ensuring the inter-frame consistency. In the second
stage, we use the predicted motion trajectories/changes to guide the video
generation of a VDM. As the predicted motion trajectories/changes are rough,
noise is added during inference to provide freedom to the VDM in generating
motion with more fine details. Extensive experimental results demonstrate that
our framework can produce physically plausible motion, and comparative
evaluations highlight the notable superiority of our approach over existing
methods. More video results are available on our Project Page:
https://madaoer.github.io/projects/physically_plausible_video_generation.Summary
AI-Generated Summary