Naar Fysiek Aannemelijke Videogeneratie via VLM-planning
Towards Physically Plausible Video Generation via VLM Planning
March 30, 2025
Auteurs: Xindi Yang, Baolu Li, Yiming Zhang, Zhenfei Yin, Lei Bai, Liqian Ma, Zhiyong Wang, Jianfei Cai, Tien-Tsin Wong, Huchuan Lu, Xu Jia
cs.AI
Samenvatting
Video-diffusiemodellen (VDM's) hebben de afgelopen jaren aanzienlijke vooruitgang geboekt, waardoor het mogelijk is geworden om zeer realistische video's te genereren en de aandacht van de gemeenschap te trekken vanwege hun potentieel als wereld-simulatoren. Ondanks hun mogelijkheden slagen VDM's er echter vaak niet in om fysiek plausibele video's te produceren vanwege een inherent gebrek aan begrip van de fysica, wat resulteert in onjuiste dynamiek en gebeurtenisvolgordes. Om deze beperking aan te pakken, stellen we een nieuw tweestaps beeld-naar-video-generatieframework voor dat expliciet fysica integreert. In de eerste fase gebruiken we een Vision Language Model (VLM) als een grofkorrelige bewegingplanner, waarbij we ketendenk- en fysicabewuste redeneringen integreren om ruwe bewegingsbanen/veranderingen te voorspellen die de fysieke dynamiek van de echte wereld benaderen, terwijl de consistentie tussen frames wordt gewaarborgd. In de tweede fase gebruiken we de voorspelde bewegingsbanen/veranderingen om de videogeneratie van een VDM te sturen. Omdat de voorspelde bewegingsbanen/veranderingen ruw zijn, wordt er tijdens de inferentie ruis toegevoegd om de VDM de vrijheid te geven om beweging met meer fijne details te genereren. Uitgebreide experimentele resultaten tonen aan dat ons framework fysiek plausibele beweging kan produceren, en vergelijkende evaluaties benadrukken de opmerkelijke superioriteit van onze aanpak ten opzichte van bestaande methoden. Meer videoresultaten zijn beschikbaar op onze Projectpagina: https://madaoer.github.io/projects/physically_plausible_video_generation.
English
Video diffusion models (VDMs) have advanced significantly in recent years,
enabling the generation of highly realistic videos and drawing the attention of
the community in their potential as world simulators. However, despite their
capabilities, VDMs often fail to produce physically plausible videos due to an
inherent lack of understanding of physics, resulting in incorrect dynamics and
event sequences. To address this limitation, we propose a novel two-stage
image-to-video generation framework that explicitly incorporates physics. In
the first stage, we employ a Vision Language Model (VLM) as a coarse-grained
motion planner, integrating chain-of-thought and physics-aware reasoning to
predict a rough motion trajectories/changes that approximate real-world
physical dynamics while ensuring the inter-frame consistency. In the second
stage, we use the predicted motion trajectories/changes to guide the video
generation of a VDM. As the predicted motion trajectories/changes are rough,
noise is added during inference to provide freedom to the VDM in generating
motion with more fine details. Extensive experimental results demonstrate that
our framework can produce physically plausible motion, and comparative
evaluations highlight the notable superiority of our approach over existing
methods. More video results are available on our Project Page:
https://madaoer.github.io/projects/physically_plausible_video_generation.Summary
AI-Generated Summary