Naar Fysiek Aannemelijke Videogeneratie via VLM-planning

Samenvatting

Video-diffusiemodellen (VDM's) hebben de afgelopen jaren aanzienlijke vooruitgang geboekt, waardoor het mogelijk is geworden om zeer realistische video's te genereren en de aandacht van de gemeenschap te trekken vanwege hun potentieel als wereld-simulatoren. Ondanks hun mogelijkheden slagen VDM's er echter vaak niet in om fysiek plausibele video's te produceren vanwege een inherent gebrek aan begrip van de fysica, wat resulteert in onjuiste dynamiek en gebeurtenisvolgordes. Om deze beperking aan te pakken, stellen we een nieuw tweestaps beeld-naar-video-generatieframework voor dat expliciet fysica integreert. In de eerste fase gebruiken we een Vision Language Model (VLM) als een grofkorrelige bewegingplanner, waarbij we ketendenk- en fysicabewuste redeneringen integreren om ruwe bewegingsbanen/veranderingen te voorspellen die de fysieke dynamiek van de echte wereld benaderen, terwijl de consistentie tussen frames wordt gewaarborgd. In de tweede fase gebruiken we de voorspelde bewegingsbanen/veranderingen om de videogeneratie van een VDM te sturen. Omdat de voorspelde bewegingsbanen/veranderingen ruw zijn, wordt er tijdens de inferentie ruis toegevoegd om de VDM de vrijheid te geven om beweging met meer fijne details te genereren. Uitgebreide experimentele resultaten tonen aan dat ons framework fysiek plausibele beweging kan produceren, en vergelijkende evaluaties benadrukken de opmerkelijke superioriteit van onze aanpak ten opzichte van bestaande methoden. Meer videoresultaten zijn beschikbaar op onze Projectpagina: https://madaoer.github.io/projects/physically_plausible_video_generation.

English

Video diffusion models (VDMs) have advanced significantly in recent years, enabling the generation of highly realistic videos and drawing the attention of the community in their potential as world simulators. However, despite their capabilities, VDMs often fail to produce physically plausible videos due to an inherent lack of understanding of physics, resulting in incorrect dynamics and event sequences. To address this limitation, we propose a novel two-stage image-to-video generation framework that explicitly incorporates physics. In the first stage, we employ a Vision Language Model (VLM) as a coarse-grained motion planner, integrating chain-of-thought and physics-aware reasoning to predict a rough motion trajectories/changes that approximate real-world physical dynamics while ensuring the inter-frame consistency. In the second stage, we use the predicted motion trajectories/changes to guide the video generation of a VDM. As the predicted motion trajectories/changes are rough, noise is added during inference to provide freedom to the VDM in generating motion with more fine details. Extensive experimental results demonstrate that our framework can produce physically plausible motion, and comparative evaluations highlight the notable superiority of our approach over existing methods. More video results are available on our Project Page: https://madaoer.github.io/projects/physically_plausible_video_generation.

Naar Fysiek Aannemelijke Videogeneratie via VLM-planning

Towards Physically Plausible Video Generation via VLM Planning

Samenvatting

Support