Fantasma: Generación de Vídeo Infundida en Física mediante el Modelado Conjunto de Dinámicas Visuales y Latentes Físicas
Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics
April 9, 2026
Autores: Ying Shen, Jerry Xiong, Tianjiao Yu, Ismini Lourentzou
cs.AI
Resumen
Los recientes avances en la modelización generativa de vídeo, impulsados por conjuntos de datos a gran escala y arquitecturas potentes, han producido un realismo visual notable. Sin embargo, evidencias emergentes sugieren que simplemente escalar los datos y el tamaño del modelo no dota a estos sistemas de una comprensión de las leyes físicas subyacentes que gobiernan la dinámica del mundo real. Los enfoques existentes a menudo no logran capturar o imponer dicha consistencia física, lo que resulta en movimientos y dinámicas poco realistas. En este trabajo, investigamos si la integración de la inferencia de propiedades físicas latentes directamente en el proceso de generación de vídeo puede dotar a los modelos de la capacidad de producir vídeos físicamente plausibles. Con este fin, proponemos Phantom, un modelo de Generación de Vídeo Infundido en Física que modela conjuntamente el contenido visual y la dinámica física latente. Condicionado por fotogramas de vídeo observados y estados físicos inferidos, Phantom predice conjuntamente la dinámica física latente y genera futuros fotogramas de vídeo. Phantom aprovecha una representación de vídeo consciente de la física que sirve como una incrustación abstracta pero informativa de la física subyacente, facilitando la predicción conjunta de la dinámica física junto con el contenido del vídeo sin requerir una especificación explícita de un conjunto complejo de dinámicas y propiedades físicas. Al integrar la inferencia de la representación de vídeo consciente de la física directamente en el proceso de generación de vídeo, Phantom produce secuencias de vídeo que son tanto visualmente realistas como físicamente consistentes. Los resultados cuantitativos y cualitativos en benchmarks estándar de generación de vídeo y conscientes de la física demuestran que Phantom no solo supera a los métodos existentes en términos de adherencia a la dinámica física, sino que también ofrece una fidelidad perceptual competitiva.
English
Recent advances in generative video modeling, driven by large-scale datasets and powerful architectures, have yielded remarkable visual realism. However, emerging evidence suggests that simply scaling data and model size does not endow these systems with an understanding of the underlying physical laws that govern real-world dynamics. Existing approaches often fail to capture or enforce such physical consistency, resulting in unrealistic motion and dynamics. In his work, we investigate whether integrating the inference of latent physical properties directly into the video generation process can equip models with the ability to produce physically plausible videos. To this end, we propose Phantom, a Physics-Infused Video Generation model that jointly models the visual content and latent physical dynamics. Conditioned on observed video frames and inferred physical states, Phantom jointly predicts latent physical dynamics and generates future video frames. Phantom leverages a physics-aware video representation that serves as an abstract yet informaive embedding of the underlying physics, facilitating the joint prediction of physical dynamics alongside video content without requiring an explicit specification of a complex set of physical dynamics and properties. By integrating the inference of physical-aware video representation directly into the video generation process, Phantom produces video sequences that are both visually realistic and physically consistent. Quantitative and qualitative results on both standard video generation and physics-aware benchmarks demonstrate that Phantom not only outperforms existing methods in terms of adherence to physical dynamics but also delivers competitive perceptual fidelity.