Hin zu physikalisch plausibler Videogenerierung durch VLM-Planung
Towards Physically Plausible Video Generation via VLM Planning
March 30, 2025
Autoren: Xindi Yang, Baolu Li, Yiming Zhang, Zhenfei Yin, Lei Bai, Liqian Ma, Zhiyong Wang, Jianfei Cai, Tien-Tsin Wong, Huchuan Lu, Xu Jia
cs.AI
Zusammenfassung
Video-Diffusionsmodelle (VDMs) haben in den letzten Jahren erhebliche Fortschritte gemacht und ermöglichen die Erzeugung von hochrealistischen Videos, wodurch sie die Aufmerksamkeit der Community auf ihr Potenzial als Weltsimulatoren gelenkt haben. Trotz ihrer Fähigkeiten scheitern VDMs jedoch oft daran, physikalisch plausible Videos zu erzeugen, da ihnen ein grundlegendes Verständnis der Physik fehlt, was zu falschen Dynamiken und Ereignissequenzen führt. Um diese Einschränkung zu überwinden, schlagen wir ein neuartiges zweistufiges Bild-zu-Video-Generierungsframework vor, das explizit Physik einbezieht. In der ersten Stufe verwenden wir ein Vision-Language-Model (VLM) als grobkörnigen Bewegungsplaner, das Chain-of-Thought und physikbewusstes Denken integriert, um grobe Bewegungstrajektorien/-änderungen vorherzusagen, die die physikalische Dynamik der realen Welt annähern und gleichzeitig die Interframe-Konsistenz sicherstellen. In der zweiten Stufe nutzen wir die vorhergesagten Bewegungstrajektorien/-änderungen, um die Videogenerierung eines VDMs zu steuern. Da die vorhergesagten Bewegungstrajektorien/-änderungen grob sind, wird während der Inferenz Rauschen hinzugefügt, um dem VDM die Freiheit zu geben, Bewegungen mit feineren Details zu erzeugen. Umfangreiche experimentelle Ergebnisse zeigen, dass unser Framework physikalisch plausible Bewegungen erzeugen kann, und vergleichende Bewertungen heben die bemerkenswerte Überlegenheit unseres Ansatzes gegenüber bestehenden Methoden hervor. Weitere Videoergebnisse sind auf unserer Projektseite verfügbar: https://madaoer.github.io/projects/physically_plausible_video_generation.
English
Video diffusion models (VDMs) have advanced significantly in recent years,
enabling the generation of highly realistic videos and drawing the attention of
the community in their potential as world simulators. However, despite their
capabilities, VDMs often fail to produce physically plausible videos due to an
inherent lack of understanding of physics, resulting in incorrect dynamics and
event sequences. To address this limitation, we propose a novel two-stage
image-to-video generation framework that explicitly incorporates physics. In
the first stage, we employ a Vision Language Model (VLM) as a coarse-grained
motion planner, integrating chain-of-thought and physics-aware reasoning to
predict a rough motion trajectories/changes that approximate real-world
physical dynamics while ensuring the inter-frame consistency. In the second
stage, we use the predicted motion trajectories/changes to guide the video
generation of a VDM. As the predicted motion trajectories/changes are rough,
noise is added during inference to provide freedom to the VDM in generating
motion with more fine details. Extensive experimental results demonstrate that
our framework can produce physically plausible motion, and comparative
evaluations highlight the notable superiority of our approach over existing
methods. More video results are available on our Project Page:
https://madaoer.github.io/projects/physically_plausible_video_generation.Summary
AI-Generated Summary