Fantasma: Geração de Vídeo Infundida com Física por meio da Modelagem Conjunta de Dinâmicas Visuais e Latentes Físicas
Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics
April 9, 2026
Autores: Ying Shen, Jerry Xiong, Tianjiao Yu, Ismini Lourentzou
cs.AI
Resumo
Os recentes avanços na modelagem generativa de vídeo, impulsionados por conjuntos de dados em larga escala e arquiteturas poderosas, têm produzido um realismo visual notável. No entanto, evidências emergentes sugerem que simplesmente escalar os dados e o tamanho do modelo não confere a esses sistemas uma compreensão das leis físicas subjacentes que governam a dinâmica do mundo real. As abordagens existentes frequentemente falham em capturar ou impor essa consistência física, resultando em movimento e dinâmica irreais. Em nosso trabalho, investigamos se a integração da inferência de propriedades físicas latentes diretamente no processo de geração de vídeo pode dotar os modelos da capacidade de produzir vídeos fisicamente plausíveis. Para esse fim, propomos o Phantom, um modelo de Geração de Vídeo Infundido por Física que modela conjuntamente o conteúdo visual e a dinâmica física latente. Condicionado a quadros de vídeo observados e estados físicos inferidos, o Phantom prevê conjuntamente a dinâmica física latente e gera quadros de vídeo futuros. O Phantom aproveita uma representação de vídeo consciente da física que serve como uma incorporação abstrata, porém informativa, da física subjacente, facilitando a previsão conjunta da dinâmica física juntamente com o conteúdo do vídeo, sem exigir uma especificação explícita de um conjunto complexo de dinâmicas e propriedades físicas. Ao integrar a inferência da representação de vídeo consciente da física diretamente no processo de geração, o Phantom produz sequências de vídeo que são visualmente realistas e fisicamente consistentes. Resultados quantitativos e qualitativos em benchmarks padrão de geração de vídeo e conscientes da física demonstram que o Phantom não apenas supera os métodos existentes em termos de aderência à dinâmica física, mas também oferece uma fidelidade perceptual competitiva.
English
Recent advances in generative video modeling, driven by large-scale datasets and powerful architectures, have yielded remarkable visual realism. However, emerging evidence suggests that simply scaling data and model size does not endow these systems with an understanding of the underlying physical laws that govern real-world dynamics. Existing approaches often fail to capture or enforce such physical consistency, resulting in unrealistic motion and dynamics. In his work, we investigate whether integrating the inference of latent physical properties directly into the video generation process can equip models with the ability to produce physically plausible videos. To this end, we propose Phantom, a Physics-Infused Video Generation model that jointly models the visual content and latent physical dynamics. Conditioned on observed video frames and inferred physical states, Phantom jointly predicts latent physical dynamics and generates future video frames. Phantom leverages a physics-aware video representation that serves as an abstract yet informaive embedding of the underlying physics, facilitating the joint prediction of physical dynamics alongside video content without requiring an explicit specification of a complex set of physical dynamics and properties. By integrating the inference of physical-aware video representation directly into the video generation process, Phantom produces video sequences that are both visually realistic and physically consistent. Quantitative and qualitative results on both standard video generation and physics-aware benchmarks demonstrate that Phantom not only outperforms existing methods in terms of adherence to physical dynamics but also delivers competitive perceptual fidelity.