Phantom: Generazione di Video con Infusione Fisica tramite Modellizzazione Congiunta delle Dinamiche Visive e Latenti Fisiche

Abstract

I recenti progressi nella modellazione video generativa, favoriti da dataset su larga scala e architetture potenti, hanno prodotto un realismo visivo notevole. Tuttavia, evidenze emergenti suggeriscono che il semplice aumento dei dati e delle dimensioni del modello non conferisce a questi sistemi una comprensione delle leggi fisiche sottostanti che governano le dinamiche del mondo reale. Gli approcci esistenti spesso non riescono a catturare o imporre tale coerenza fisica, risultando in movimenti e dinamiche irrealistici. In questo lavoro, indaghiamo se l'integrazione dell'inferenza di proprietà fisiche latenti direttamente nel processo di generazione video possa fornire ai modelli la capacità di produrre video fisicamente plausibili. A tal fine, proponiamo Phantom, un modello di Generazione Video con Infusione Fisica che modella congiuntamente il contenuto visivo e le dinamiche fisiche latenti. Condizionato da fotogrammi video osservati e stati fisici inferiti, Phantom predice congiuntamente le dinamiche fisiche latenti e genera i fotogrammi video futuri. Phantom sfrutta una rappresentazione video consapevole della fisica che funge da incorporamento astratto ma informativo della fisica sottostante, facilitando la previsione congiunta delle dinamiche fisiche insieme al contenuto video, senza richiedere una specifica esplicita di un complesso insieme di dinamiche e proprietà fisiche. Integrando direttamente l'inferenza della rappresentazione video fisicamente consapevole nel processo di generazione, Phantom produce sequenze video che sono sia visivamente realistiche che fisicamente coerenti. Risultati quantitativi e qualitativi su benchmark standard di generazione video e di consapevolezza fisica dimostrano che Phantom non solo supera i metodi esistenti in termini di aderenza alle dinamiche fisiche, ma offre anche una fedeltà percettiva competitiva.

English

Recent advances in generative video modeling, driven by large-scale datasets and powerful architectures, have yielded remarkable visual realism. However, emerging evidence suggests that simply scaling data and model size does not endow these systems with an understanding of the underlying physical laws that govern real-world dynamics. Existing approaches often fail to capture or enforce such physical consistency, resulting in unrealistic motion and dynamics. In his work, we investigate whether integrating the inference of latent physical properties directly into the video generation process can equip models with the ability to produce physically plausible videos. To this end, we propose Phantom, a Physics-Infused Video Generation model that jointly models the visual content and latent physical dynamics. Conditioned on observed video frames and inferred physical states, Phantom jointly predicts latent physical dynamics and generates future video frames. Phantom leverages a physics-aware video representation that serves as an abstract yet informaive embedding of the underlying physics, facilitating the joint prediction of physical dynamics alongside video content without requiring an explicit specification of a complex set of physical dynamics and properties. By integrating the inference of physical-aware video representation directly into the video generation process, Phantom produces video sequences that are both visually realistic and physically consistent. Quantitative and qualitative results on both standard video generation and physics-aware benchmarks demonstrate that Phantom not only outperforms existing methods in terms of adherence to physical dynamics but also delivers competitive perceptual fidelity.

Phantom: Generazione di Video con Infusione Fisica tramite Modellizzazione Congiunta delle Dinamiche Visive e Latenti Fisiche

Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics

Abstract

Support