ChatPaper.aiChatPaper

ProPhy: 動的世界シミュレーションのための漸進的物理整合

ProPhy: Progressive Physical Alignment for Dynamic World Simulation

December 5, 2025
著者: Zijun Wang, Panwen Hu, Jing Wang, Terry Jingchen Zhang, Yuhao Cheng, Long Chen, Yiqiang Yan, Zutao Jiang, Hanhui Li, Xiaodan Liang
cs.AI

要旨

近年、ビデオ生成技術の著しい進歩は、世界シミュレータ構築に大きな可能性を示している。しかし、現行のモデルは、特に大規模または複雑なダイナミクスを扱う際に、物理的一貫性のある結果を生成する点で依然として課題を抱えている。この制限は主に、既存のアプローチが物理的プロンプトに対して等方的に応答し、生成内容と局所的な物理的手がかりとの微細な整合性を軽視していることに起因する。これらの課題に対処するため、我々は明示的な物理認識条件付けと異方的生成を可能とするProgressive Physical Alignment Framework (ProPhy) を提案する。ProPhyは、識別的な物理事前分布抽出のため、2段階のMixture-of-Physics-Experts (MoPE) メカニズムを採用する。セマンティック専門家はテキスト記述から意味論レベルの物理法則を推論し、リファインメント専門家はトークンレベルの物理ダイナミクスを捕捉する。このメカニズムにより、モデルは基礎となる物理法則をより良く反映した、微細な物理認識ビデオ表現を学習できる。さらに、視覚言語モデル (VLM) の物理推論能力をリファインメント専門家に転移する物理整合戦略を導入し、動的物理現象のより正確な表現を促進する。物理認識ビデオ生成ベンチマークにおける大規模な実験により、ProPhyが既存の最先端手法よりも現実的で動的、かつ物理的に一貫性のある結果を生成することを実証した。
English
Recent advances in video generation have shown remarkable potential for constructing world simulators. However, current models still struggle to produce physically consistent results, particularly when handling large-scale or complex dynamics. This limitation arises primarily because existing approaches respond isotropically to physical prompts and neglect the fine-grained alignment between generated content and localized physical cues. To address these challenges, we propose ProPhy, a Progressive Physical Alignment Framework that enables explicit physics-aware conditioning and anisotropic generation. ProPhy employs a two-stage Mixture-of-Physics-Experts (MoPE) mechanism for discriminative physical prior extraction, where Semantic Experts infer semantic-level physical principles from textual descriptions, and Refinement Experts capture token-level physical dynamics. This mechanism allows the model to learn fine-grained, physics-aware video representations that better reflect underlying physical laws. Furthermore, we introduce a physical alignment strategy that transfers the physical reasoning capabilities of vision-language models (VLMs) into the Refinement Experts, facilitating a more accurate representation of dynamic physical phenomena. Extensive experiments on physics-aware video generation benchmarks demonstrate that ProPhy produces more realistic, dynamic, and physically coherent results than existing state-of-the-art methods.
PDF32December 9, 2025