팬텀: 시각 및 잠재 물리 역학의 공동 모델링을 통한 물리 법칙 통합 비디오 생성
Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics
April 9, 2026
저자: Ying Shen, Jerry Xiong, Tianjiao Yu, Ismini Lourentzou
cs.AI
초록
대규모 데이터셋과 강력한 아키텍처에 힘입은 생성적 비디오 모델링의 최근 발전은 놀라운 시각적 현실감을 구현해왔습니다. 그러나 최근 연구에 따르면, 단순히 데이터와 모델 규모를 확장하는 것만으로는 이러한 시스템이 현실 세계의 역학을 지배하는 근본적인 물리 법칙을 이해하도록 할 수 없습니다. 기존 접근법들은 종종 이러한 물리적 일관성을 포착하거나 강화하는 데 실패하여 비현실적인 움직임과 역학을 초래합니다. 본 연구에서는 잠재적 물리적 특성 추론을 비디오 생성 과정에 직접 통합함으로써 모델이 물리적으로 타당한 비디오를 생성할 수 있는 능력을 갖출 수 있는지 조사합니다. 이를 위해 우리는 시각적 콘텐츠와 잠재적 물리 역학을 공동으로 모델링하는 물리 기반 비디오 생성 모델인 Phantom을 제안합니다. 관찰된 비디오 프레임과 추론된 물리 상태를 조건으로 하여, Phantom은 잠재적 물리 역학을 예측하고 미래 비디오 프레임을 생성합니다. Phantom은 기저 물리학의 추상적이면서도 정보적인 임베딩 역할을 하는 물리 인식 비디오 표현을 활용하여, 복잡한 물리 역학 및 특성 집합을 명시적으로 규정할 필요 없이 비디오 콘텐츠와 함께 물리 역학의 공동 예측을 용이하게 합니다. 물리 인식 비디오 표현 추론을 비디오 생성 과정에 직접 통합함으로써, Phantom은 시각적으로 현실적이면서도 물리적으로 일관된 비디오 시퀀스를 생성합니다. 표준 비디오 생성 및 물리 인식 벤치마크에 대한 정량적 및 정성적 결과는 Phantom이 물리 역학 준수 측면에서 기존 방법을 능가할 뿐만 아니라 경쟁력 있는 지각적 충실도를 제공함을 보여줍니다.
English
Recent advances in generative video modeling, driven by large-scale datasets and powerful architectures, have yielded remarkable visual realism. However, emerging evidence suggests that simply scaling data and model size does not endow these systems with an understanding of the underlying physical laws that govern real-world dynamics. Existing approaches often fail to capture or enforce such physical consistency, resulting in unrealistic motion and dynamics. In his work, we investigate whether integrating the inference of latent physical properties directly into the video generation process can equip models with the ability to produce physically plausible videos. To this end, we propose Phantom, a Physics-Infused Video Generation model that jointly models the visual content and latent physical dynamics. Conditioned on observed video frames and inferred physical states, Phantom jointly predicts latent physical dynamics and generates future video frames. Phantom leverages a physics-aware video representation that serves as an abstract yet informaive embedding of the underlying physics, facilitating the joint prediction of physical dynamics alongside video content without requiring an explicit specification of a complex set of physical dynamics and properties. By integrating the inference of physical-aware video representation directly into the video generation process, Phantom produces video sequences that are both visually realistic and physically consistent. Quantitative and qualitative results on both standard video generation and physics-aware benchmarks demonstrate that Phantom not only outperforms existing methods in terms of adherence to physical dynamics but also delivers competitive perceptual fidelity.