Vers une génération de vidéos physiquement plausibles via la planification par modèle de langage visuel

papers.abstract

Les modèles de diffusion vidéo (VDM) ont connu des avancées significatives ces dernières années, permettant la génération de vidéos hautement réalistes et attirant l'attention de la communauté quant à leur potentiel en tant que simulateurs de mondes. Cependant, malgré leurs capacités, les VDM échouent souvent à produire des vidéos physiquement plausibles en raison d'un manque inhérent de compréhension de la physique, entraînant des dynamiques et des séquences d'événements incorrectes. Pour pallier cette limitation, nous proposons un nouveau cadre de génération image-à-vidéo en deux étapes qui intègre explicitement la physique. Dans la première étape, nous utilisons un modèle de vision et langage (VLM) comme planificateur de mouvement à gros grain, intégrant un raisonnement en chaîne de pensée et conscient de la physique pour prédire des trajectoires/changements de mouvement approximatifs qui se rapprochent des dynamiques physiques du monde réel tout en assurant la cohérence inter-images. Dans la deuxième étape, nous utilisons les trajectoires/changements de mouvement prédits pour guider la génération vidéo d'un VDM. Comme les trajectoires/changements de mouvement prédits sont approximatifs, du bruit est ajouté lors de l'inférence pour offrir une liberté au VDM dans la génération de mouvements avec des détails plus fins. Les résultats expérimentaux approfondis démontrent que notre cadre peut produire des mouvements physiquement plausibles, et les évaluations comparatives mettent en évidence la supériorité notable de notre approche par rapport aux méthodes existantes. Plus de résultats vidéo sont disponibles sur notre page de projet : https://madaoer.github.io/projects/physically_plausible_video_generation.

English

Video diffusion models (VDMs) have advanced significantly in recent years, enabling the generation of highly realistic videos and drawing the attention of the community in their potential as world simulators. However, despite their capabilities, VDMs often fail to produce physically plausible videos due to an inherent lack of understanding of physics, resulting in incorrect dynamics and event sequences. To address this limitation, we propose a novel two-stage image-to-video generation framework that explicitly incorporates physics. In the first stage, we employ a Vision Language Model (VLM) as a coarse-grained motion planner, integrating chain-of-thought and physics-aware reasoning to predict a rough motion trajectories/changes that approximate real-world physical dynamics while ensuring the inter-frame consistency. In the second stage, we use the predicted motion trajectories/changes to guide the video generation of a VDM. As the predicted motion trajectories/changes are rough, noise is added during inference to provide freedom to the VDM in generating motion with more fine details. Extensive experimental results demonstrate that our framework can produce physically plausible motion, and comparative evaluations highlight the notable superiority of our approach over existing methods. More video results are available on our Project Page: https://madaoer.github.io/projects/physically_plausible_video_generation.

Vers une génération de vidéos physiquement plausibles via la planification par modèle de langage visuel

Towards Physically Plausible Video Generation via VLM Planning

papers.abstract

Support