Phantom : Génération de vidéos infusées par la physique via la modélisation conjointe des dynamiques visuelles et physiques latentes

Résumé

Les récents progrès en modélisation vidéo générative, portés par des jeux de données à grande échelle et des architectures puissantes, ont permis d'atteindre un réalisme visuel remarquable. Cependant, des preuves émergentes suggèrent que le simple fait d'augmenter la taille des données et des modèles ne confère pas à ces systèmes une compréhension des lois physiques sous-jacentes qui régissent la dynamique du monde réel. Les approches existantes échouent souvent à capturer ou à imposer une telle cohérence physique, ce qui entraîne des mouvements et une dynamique irréalistes. Dans ce travail, nous étudions si l'intégration de l'inférence de propriétés physiques latentes directement dans le processus de génération vidéo peut doter les modèles de la capacité à produire des vidéos physiquement plausibles. À cette fin, nous proposons Phantom, un modèle de génération vidéo infusé par la physique qui modélise conjointement le contenu visuel et la dynamique physique latente. Conditionné sur des images vidéo observées et des états physiques inférés, Phantom prédit conjointement la dynamique physique latente et génère les images vidéo futures. Phantom tire parti d'une représentation vidéo consciente de la physique qui sert d'embedding abstrait mais informatif de la physique sous-jacente, facilitant la prédiction conjointe de la dynamique physique parallèlement au contenu vidéo, sans nécessiter la spécification explicite d'un ensemble complexe de dynamiques et de propriétés physiques. En intégrant directement l'inférence de la représentation vidéo consciente de la physique dans le processus de génération vidéo, Phantom produit des séquences vidéo à la fois visuellement réalistes et physiquement cohérentes. Les résultats quantitatifs et qualitatifs sur des benchmarks standards de génération vidéo et de conscience physique démontrent que Phantom surpasse non seulement les méthodes existantes en termes de respect de la dynamique physique, mais offre également une fidélité perceptive compétitive.

English

Recent advances in generative video modeling, driven by large-scale datasets and powerful architectures, have yielded remarkable visual realism. However, emerging evidence suggests that simply scaling data and model size does not endow these systems with an understanding of the underlying physical laws that govern real-world dynamics. Existing approaches often fail to capture or enforce such physical consistency, resulting in unrealistic motion and dynamics. In his work, we investigate whether integrating the inference of latent physical properties directly into the video generation process can equip models with the ability to produce physically plausible videos. To this end, we propose Phantom, a Physics-Infused Video Generation model that jointly models the visual content and latent physical dynamics. Conditioned on observed video frames and inferred physical states, Phantom jointly predicts latent physical dynamics and generates future video frames. Phantom leverages a physics-aware video representation that serves as an abstract yet informaive embedding of the underlying physics, facilitating the joint prediction of physical dynamics alongside video content without requiring an explicit specification of a complex set of physical dynamics and properties. By integrating the inference of physical-aware video representation directly into the video generation process, Phantom produces video sequences that are both visually realistic and physically consistent. Quantitative and qualitative results on both standard video generation and physics-aware benchmarks demonstrate that Phantom not only outperforms existing methods in terms of adherence to physical dynamics but also delivers competitive perceptual fidelity.

Phantom : Génération de vidéos infusées par la physique via la modélisation conjointe des dynamiques visuelles et physiques latentes

Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics

Résumé

Support