ChatPaper.aiChatPaper

ProPhy: Allineamento Fisico Progressivo per la Simulazione di Mondi Dinamici

ProPhy: Progressive Physical Alignment for Dynamic World Simulation

December 5, 2025
Autori: Zijun Wang, Panwen Hu, Jing Wang, Terry Jingchen Zhang, Yuhao Cheng, Long Chen, Yiqiang Yan, Zutao Jiang, Hanhui Li, Xiaodan Liang
cs.AI

Abstract

I recenti progressi nella generazione video hanno mostrato un potenziale notevole per la costruzione di simulatori mondiali. Tuttavia, i modelli attuali continuano a incontrare difficoltà nel produrre risultati fisicamente coerenti, specialmente quando gestiscono dinamiche su larga scala o complesse. Questa limitazione sorge principalmente perché gli approcci esistenti rispondono in modo isotropo ai prompt fisici e trascurano l'allineamento granulare tra il contenuto generato e gli indizi fisici localizzati. Per affrontare queste sfide, proponiamo ProPhy, un Framework di Allineamento Fisico Progressivo che abilita un condizionamento esplicito consapevole della fisica e una generazione anisotropa. ProPhy impiega un meccanismo a due stadi di Mistura di Esperti di Fisica (MoPE) per l'estrazione discriminatoria di prior fisiche, dove Esperti Semantici inferiscono principi fisici a livello semantico dalle descrizioni testuali, ed Esperti di Raffinamento catturano le dinamiche fisiche a livello di token. Questo meccanismo consente al modello di apprendere rappresentazioni video granulari e consapevoli della fisica che riflettono meglio le leggi fisiche sottostanti. Inoltre, introduciamo una strategia di allineamento fisico che trasferisce le capacità di ragionamento fisico dei modelli visione-linguaggio (VLM) negli Esperti di Raffinamento, facilitando una rappresentazione più accurata dei fenomeni fisici dinamici. Esperimenti estesi su benchmark di generazione video consapevole della fisica dimostrano che ProPhy produce risultati più realistici, dinamici e fisicamente coerenti rispetto ai metodi state-of-the-art esistenti.
English
Recent advances in video generation have shown remarkable potential for constructing world simulators. However, current models still struggle to produce physically consistent results, particularly when handling large-scale or complex dynamics. This limitation arises primarily because existing approaches respond isotropically to physical prompts and neglect the fine-grained alignment between generated content and localized physical cues. To address these challenges, we propose ProPhy, a Progressive Physical Alignment Framework that enables explicit physics-aware conditioning and anisotropic generation. ProPhy employs a two-stage Mixture-of-Physics-Experts (MoPE) mechanism for discriminative physical prior extraction, where Semantic Experts infer semantic-level physical principles from textual descriptions, and Refinement Experts capture token-level physical dynamics. This mechanism allows the model to learn fine-grained, physics-aware video representations that better reflect underlying physical laws. Furthermore, we introduce a physical alignment strategy that transfers the physical reasoning capabilities of vision-language models (VLMs) into the Refinement Experts, facilitating a more accurate representation of dynamic physical phenomena. Extensive experiments on physics-aware video generation benchmarks demonstrate that ProPhy produces more realistic, dynamic, and physically coherent results than existing state-of-the-art methods.
PDF32December 9, 2025