ProPhy: 동적 세계 시뮬레이션을 위한 점진적 물리 정렬
ProPhy: Progressive Physical Alignment for Dynamic World Simulation
December 5, 2025
저자: Zijun Wang, Panwen Hu, Jing Wang, Terry Jingchen Zhang, Yuhao Cheng, Long Chen, Yiqiang Yan, Zutao Jiang, Hanhui Li, Xiaodan Liang
cs.AI
초록
최근 비디오 생성 분야의 발전은 세계 시뮬레이터 구축에 대한 뛰어난 가능성을 보여주고 있습니다. 그러나 현존하는 모델들은 여전히 물리적 일관성을 유지한 결과물을 생성하는 데 어려움을 겪고 있으며, 특히 대규모 또는 복잡한 동역학을 다룰 때 두드러집니다. 이러한 한계는 기존 접근법들이 물리적 프롬프트에 대해 등방적으로 반응하고 생성된 콘텐츠와 지역화된 물리적 단서 사이의 세밀한 정렬을 소홀히 하기 때문에 발생합니다. 이러한 문제를 해결하기 위해 우리는 명시적인 물리 인식 조건화와 이방성 생성을 가능하게 하는 Progressive Physical Alignment Framework(ProPhy)를 제안합니다. ProPhy는 판별적 물리 사전 지식 추출을 위한 2단계 Mixture-of-Physics-Experts(MoPE) 메커니즘을 사용합니다. 여기서 의미 전문가(Semantic Experts)는 텍스트 설명으로부터 의미 수준의 물리 법칙을 추론하고, 정제 전문가(Refinement Experts)는 토큰 수준의 물리적 동역학을 포착합니다. 이 메커니즘을 통해 모델은 기저 물리 법칙을 더 잘 반영하는 세밀한 물리 인식 비디오 표현을 학습할 수 있습니다. 더 나아가, 우리는 비전-언어 모델(VLMs)의 물리 추론 능력을 정제 전문가로 이전하여 동적 물리 현상을 더 정확하게 표현할 수 있도록 하는 물리 정렬 전략을 도입합니다. 물리 인식 비디오 생성 벤치마크에서의 광범위한 실험을 통해 ProPhy가 기존 최첨단 방법들보다 더 사실적이고 동적이며 물리적으로 일관된 결과를 생성함을 입증했습니다.
English
Recent advances in video generation have shown remarkable potential for constructing world simulators. However, current models still struggle to produce physically consistent results, particularly when handling large-scale or complex dynamics. This limitation arises primarily because existing approaches respond isotropically to physical prompts and neglect the fine-grained alignment between generated content and localized physical cues. To address these challenges, we propose ProPhy, a Progressive Physical Alignment Framework that enables explicit physics-aware conditioning and anisotropic generation. ProPhy employs a two-stage Mixture-of-Physics-Experts (MoPE) mechanism for discriminative physical prior extraction, where Semantic Experts infer semantic-level physical principles from textual descriptions, and Refinement Experts capture token-level physical dynamics. This mechanism allows the model to learn fine-grained, physics-aware video representations that better reflect underlying physical laws. Furthermore, we introduce a physical alignment strategy that transfers the physical reasoning capabilities of vision-language models (VLMs) into the Refinement Experts, facilitating a more accurate representation of dynamic physical phenomena. Extensive experiments on physics-aware video generation benchmarks demonstrate that ProPhy produces more realistic, dynamic, and physically coherent results than existing state-of-the-art methods.