Phantom: Natuurkundig Geïnformeerde Videogeneratie via Gezamenlijke Modellering van Visuele en Latente Fysische Dynamica

Samenvatting

Recente vooruitgang in generatieve videomodellering, aangedreven door grootschalige datasets en krachtige architecturen, heeft opmerkelijke visuele realistisch opgeleverd. Er zijn echter aanwijzingen dat het simpelweg opschalen van data en modelgrootte deze systemen niet begrip geeft van de onderliggende natuurwetten die de dynamiek in de echte wereld beheersen. Bestaande benaderingen slagen er vaak niet in om dergelijke fysische consistentie vast te leggen of af te dwingen, wat resulteert in onrealistische beweging en dynamiek. In ons werk onderzoeken we of het integreren van de inferentie van latente fysische eigenschappen direct in het videogeneratieproces modellen het vermogen kan geven om fysisch plausibele video's te produceren. Hiertoe stellen we Phantom voor, een Physics-Infused Video Generation-model dat zowel de visuele inhoud als de latente fysische dynamiek gezamenlijk modelleert. Gekonditioneerd op waargenomen videobeelden en afgeleide fysische toestanden, voorspelt Phantom gezamenlijk de latente fysische dynamiek en genereert het toekomstige videobeelden. Phantom maakt gebruik van een fysica-bewuste videorepresentatie die dient als een abstracte doch informatieve embedding van de onderliggende fysica, wat de gezamenlijke voorspelling van fysische dynamiek naast videocontent vergemakkelijkt zonder dat een expliciete specificatie van een complexe set fysische dynamiek en eigenschappen vereist is. Door de inferentie van fysica-bewuste videorepresentatie direct te integreren in het videogeneratieproces, produceert Phantom videoreeksen die zowel visueel realistisch als fysisch consistent zijn. Kwantitatieve en kwalitatieve resultaten op zowel standaard videogeneratie- als fysica-bewuste benchmarks tonen aan dat Phantom niet alleen bestaande methoden overtreft wat betreft naleving van fysische dynamiek, maar ook competitieve perceptuele kwaliteit levert.

English

Recent advances in generative video modeling, driven by large-scale datasets and powerful architectures, have yielded remarkable visual realism. However, emerging evidence suggests that simply scaling data and model size does not endow these systems with an understanding of the underlying physical laws that govern real-world dynamics. Existing approaches often fail to capture or enforce such physical consistency, resulting in unrealistic motion and dynamics. In his work, we investigate whether integrating the inference of latent physical properties directly into the video generation process can equip models with the ability to produce physically plausible videos. To this end, we propose Phantom, a Physics-Infused Video Generation model that jointly models the visual content and latent physical dynamics. Conditioned on observed video frames and inferred physical states, Phantom jointly predicts latent physical dynamics and generates future video frames. Phantom leverages a physics-aware video representation that serves as an abstract yet informaive embedding of the underlying physics, facilitating the joint prediction of physical dynamics alongside video content without requiring an explicit specification of a complex set of physical dynamics and properties. By integrating the inference of physical-aware video representation directly into the video generation process, Phantom produces video sequences that are both visually realistic and physically consistent. Quantitative and qualitative results on both standard video generation and physics-aware benchmarks demonstrate that Phantom not only outperforms existing methods in terms of adherence to physical dynamics but also delivers competitive perceptual fidelity.

Phantom: Natuurkundig Geïnformeerde Videogeneratie via Gezamenlijke Modellering van Visuele en Latente Fysische Dynamica

Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics

Samenvatting

Support