ChatPaper.aiChatPaper

Hacia la Generación de Vídeos Físicamente Plausibles mediante Planificación con Modelos de Lenguaje Visual

Towards Physically Plausible Video Generation via VLM Planning

March 30, 2025
Autores: Xindi Yang, Baolu Li, Yiming Zhang, Zhenfei Yin, Lei Bai, Liqian Ma, Zhiyong Wang, Jianfei Cai, Tien-Tsin Wong, Huchuan Lu, Xu Jia
cs.AI

Resumen

Los modelos de difusión de video (VDMs, por sus siglas en inglés) han avanzado significativamente en los últimos años, permitiendo la generación de videos altamente realistas y captando la atención de la comunidad por su potencial como simuladores del mundo. Sin embargo, a pesar de sus capacidades, los VDMs a menudo no logran producir videos físicamente plausibles debido a una falta inherente de comprensión de la física, lo que resulta en dinámicas incorrectas y secuencias de eventos erróneas. Para abordar esta limitación, proponemos un novedoso marco de generación de imagen a video en dos etapas que incorpora explícitamente la física. En la primera etapa, empleamos un Modelo de Lenguaje Visual (VLM, por sus siglas en inglés) como un planificador de movimiento de grano grueso, integrando razonamiento en cadena de pensamiento y consciente de la física para predecir trayectorias/cambios de movimiento aproximados que se asemejan a las dinámicas físicas del mundo real, asegurando al mismo tiempo la consistencia entre fotogramas. En la segunda etapa, utilizamos las trayectorias/cambios de movimiento predichos para guiar la generación de video de un VDM. Dado que las trayectorias/cambios de movimiento predichos son aproximados, se añade ruido durante la inferencia para proporcionar libertad al VDM en la generación de movimientos con detalles más finos. Los resultados experimentales extensivos demuestran que nuestro marco puede producir movimientos físicamente plausibles, y las evaluaciones comparativas destacan la notable superioridad de nuestro enfoque sobre los métodos existentes. Más resultados de video están disponibles en nuestra Página del Proyecto: https://madaoer.github.io/projects/physically_plausible_video_generation.
English
Video diffusion models (VDMs) have advanced significantly in recent years, enabling the generation of highly realistic videos and drawing the attention of the community in their potential as world simulators. However, despite their capabilities, VDMs often fail to produce physically plausible videos due to an inherent lack of understanding of physics, resulting in incorrect dynamics and event sequences. To address this limitation, we propose a novel two-stage image-to-video generation framework that explicitly incorporates physics. In the first stage, we employ a Vision Language Model (VLM) as a coarse-grained motion planner, integrating chain-of-thought and physics-aware reasoning to predict a rough motion trajectories/changes that approximate real-world physical dynamics while ensuring the inter-frame consistency. In the second stage, we use the predicted motion trajectories/changes to guide the video generation of a VDM. As the predicted motion trajectories/changes are rough, noise is added during inference to provide freedom to the VDM in generating motion with more fine details. Extensive experimental results demonstrate that our framework can produce physically plausible motion, and comparative evaluations highlight the notable superiority of our approach over existing methods. More video results are available on our Project Page: https://madaoer.github.io/projects/physically_plausible_video_generation.

Summary

AI-Generated Summary

PDF393April 3, 2025