Vers une génération de vidéos physiquement plausibles via la planification par modèle de langage visuel
Towards Physically Plausible Video Generation via VLM Planning
March 30, 2025
Auteurs: Xindi Yang, Baolu Li, Yiming Zhang, Zhenfei Yin, Lei Bai, Liqian Ma, Zhiyong Wang, Jianfei Cai, Tien-Tsin Wong, Huchuan Lu, Xu Jia
cs.AI
Résumé
Les modèles de diffusion vidéo (VDM) ont connu des avancées significatives ces dernières années, permettant la génération de vidéos hautement réalistes et attirant l'attention de la communauté quant à leur potentiel en tant que simulateurs de mondes. Cependant, malgré leurs capacités, les VDM échouent souvent à produire des vidéos physiquement plausibles en raison d'un manque inhérent de compréhension de la physique, entraînant des dynamiques et des séquences d'événements incorrectes. Pour pallier cette limitation, nous proposons un nouveau cadre de génération image-à-vidéo en deux étapes qui intègre explicitement la physique. Dans la première étape, nous utilisons un modèle de vision et langage (VLM) comme planificateur de mouvement à gros grain, intégrant un raisonnement en chaîne de pensée et conscient de la physique pour prédire des trajectoires/changements de mouvement approximatifs qui se rapprochent des dynamiques physiques du monde réel tout en assurant la cohérence inter-images. Dans la deuxième étape, nous utilisons les trajectoires/changements de mouvement prédits pour guider la génération vidéo d'un VDM. Comme les trajectoires/changements de mouvement prédits sont approximatifs, du bruit est ajouté lors de l'inférence pour offrir une liberté au VDM dans la génération de mouvements avec des détails plus fins. Les résultats expérimentaux approfondis démontrent que notre cadre peut produire des mouvements physiquement plausibles, et les évaluations comparatives mettent en évidence la supériorité notable de notre approche par rapport aux méthodes existantes. Plus de résultats vidéo sont disponibles sur notre page de projet : https://madaoer.github.io/projects/physically_plausible_video_generation.
English
Video diffusion models (VDMs) have advanced significantly in recent years,
enabling the generation of highly realistic videos and drawing the attention of
the community in their potential as world simulators. However, despite their
capabilities, VDMs often fail to produce physically plausible videos due to an
inherent lack of understanding of physics, resulting in incorrect dynamics and
event sequences. To address this limitation, we propose a novel two-stage
image-to-video generation framework that explicitly incorporates physics. In
the first stage, we employ a Vision Language Model (VLM) as a coarse-grained
motion planner, integrating chain-of-thought and physics-aware reasoning to
predict a rough motion trajectories/changes that approximate real-world
physical dynamics while ensuring the inter-frame consistency. In the second
stage, we use the predicted motion trajectories/changes to guide the video
generation of a VDM. As the predicted motion trajectories/changes are rough,
noise is added during inference to provide freedom to the VDM in generating
motion with more fine details. Extensive experimental results demonstrate that
our framework can produce physically plausible motion, and comparative
evaluations highlight the notable superiority of our approach over existing
methods. More video results are available on our Project Page:
https://madaoer.github.io/projects/physically_plausible_video_generation.Summary
AI-Generated Summary