Фантом: Генерация видео с интеграцией физических законов посредством совместного моделирования визуальной и латентной физической динамики

Аннотация

Последние достижения в области генеративного моделирования видео, обусловленные использованием крупномасштабных наборов данных и мощных архитектур, позволили достичь впечатляющего визуального реализма. Однако появляющиеся данные свидетельствуют о том, что простое масштабирование данных и размера моделей не наделяет эти системы пониманием фундаментальных физических законов, управляющих динамикой реального мира. Существующие подходы часто не способны уловить или обеспечить такую физическую согласованность, что приводит к неубедительным движениям и динамике. В данной работе мы исследуем, может ли интеграция вывода латентных физических свойств непосредственно в процесс генерации видео наделить модели способностью создавать физически правдоподобные видео. С этой целью мы предлагаем Phantom — модель генерации видео с инфьюзией физики, которая совместно моделирует визуальное содержание и латентную физическую динамику. Условная на наблюдаемых кадрах видео и выведенных физических состояниях, модель Phantom совместно предсказывает латентную физическую динамику и генерирует последующие кадры видео. Phantom использует физически осведомленное видео-представление, которое служит абстрактным, но информативным embedding-ом базовой физики, облегчая совместное предсказание физической динамики вместе с видео-контентом без необходимости явного задания сложного набора физических динамик и свойств. Интегрируя вывод физически осведомленного видео-представления непосредственно в процесс генерации видео, Phantom создает видео-последовательности, которые являются как визуально реалистичными, так и физически согласованными. Количественные и качественные результаты на стандартных бенчмарках для генерации видео и оценки физической осведомленности демонстрируют, что Phantom не только превосходит существующие методы по соответствию физической динамике, но и обеспечивает конкурентоспособную перцептивную достоверность.

English

Recent advances in generative video modeling, driven by large-scale datasets and powerful architectures, have yielded remarkable visual realism. However, emerging evidence suggests that simply scaling data and model size does not endow these systems with an understanding of the underlying physical laws that govern real-world dynamics. Existing approaches often fail to capture or enforce such physical consistency, resulting in unrealistic motion and dynamics. In his work, we investigate whether integrating the inference of latent physical properties directly into the video generation process can equip models with the ability to produce physically plausible videos. To this end, we propose Phantom, a Physics-Infused Video Generation model that jointly models the visual content and latent physical dynamics. Conditioned on observed video frames and inferred physical states, Phantom jointly predicts latent physical dynamics and generates future video frames. Phantom leverages a physics-aware video representation that serves as an abstract yet informaive embedding of the underlying physics, facilitating the joint prediction of physical dynamics alongside video content without requiring an explicit specification of a complex set of physical dynamics and properties. By integrating the inference of physical-aware video representation directly into the video generation process, Phantom produces video sequences that are both visually realistic and physically consistent. Quantitative and qualitative results on both standard video generation and physics-aware benchmarks demonstrate that Phantom not only outperforms existing methods in terms of adherence to physical dynamics but also delivers competitive perceptual fidelity.

Фантом: Генерация видео с интеграцией физических законов посредством совместного моделирования визуальной и латентной физической динамики

Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics

Аннотация

Support