Hin zu physikalisch plausibler Videogenerierung durch VLM-Planung

papers.abstract

Video-Diffusionsmodelle (VDMs) haben in den letzten Jahren erhebliche Fortschritte gemacht und ermöglichen die Erzeugung von hochrealistischen Videos, wodurch sie die Aufmerksamkeit der Community auf ihr Potenzial als Weltsimulatoren gelenkt haben. Trotz ihrer Fähigkeiten scheitern VDMs jedoch oft daran, physikalisch plausible Videos zu erzeugen, da ihnen ein grundlegendes Verständnis der Physik fehlt, was zu falschen Dynamiken und Ereignissequenzen führt. Um diese Einschränkung zu überwinden, schlagen wir ein neuartiges zweistufiges Bild-zu-Video-Generierungsframework vor, das explizit Physik einbezieht. In der ersten Stufe verwenden wir ein Vision-Language-Model (VLM) als grobkörnigen Bewegungsplaner, das Chain-of-Thought und physikbewusstes Denken integriert, um grobe Bewegungstrajektorien/-änderungen vorherzusagen, die die physikalische Dynamik der realen Welt annähern und gleichzeitig die Interframe-Konsistenz sicherstellen. In der zweiten Stufe nutzen wir die vorhergesagten Bewegungstrajektorien/-änderungen, um die Videogenerierung eines VDMs zu steuern. Da die vorhergesagten Bewegungstrajektorien/-änderungen grob sind, wird während der Inferenz Rauschen hinzugefügt, um dem VDM die Freiheit zu geben, Bewegungen mit feineren Details zu erzeugen. Umfangreiche experimentelle Ergebnisse zeigen, dass unser Framework physikalisch plausible Bewegungen erzeugen kann, und vergleichende Bewertungen heben die bemerkenswerte Überlegenheit unseres Ansatzes gegenüber bestehenden Methoden hervor. Weitere Videoergebnisse sind auf unserer Projektseite verfügbar: https://madaoer.github.io/projects/physically_plausible_video_generation.

English

Video diffusion models (VDMs) have advanced significantly in recent years, enabling the generation of highly realistic videos and drawing the attention of the community in their potential as world simulators. However, despite their capabilities, VDMs often fail to produce physically plausible videos due to an inherent lack of understanding of physics, resulting in incorrect dynamics and event sequences. To address this limitation, we propose a novel two-stage image-to-video generation framework that explicitly incorporates physics. In the first stage, we employ a Vision Language Model (VLM) as a coarse-grained motion planner, integrating chain-of-thought and physics-aware reasoning to predict a rough motion trajectories/changes that approximate real-world physical dynamics while ensuring the inter-frame consistency. In the second stage, we use the predicted motion trajectories/changes to guide the video generation of a VDM. As the predicted motion trajectories/changes are rough, noise is added during inference to provide freedom to the VDM in generating motion with more fine details. Extensive experimental results demonstrate that our framework can produce physically plausible motion, and comparative evaluations highlight the notable superiority of our approach over existing methods. More video results are available on our Project Page: https://madaoer.github.io/projects/physically_plausible_video_generation.

Hin zu physikalisch plausibler Videogenerierung durch VLM-Planung

Towards Physically Plausible Video Generation via VLM Planning

papers.abstract

Support