ProPhy: Progressieve Fysieke Afstemming voor Dynamische Wereldsimulatie
ProPhy: Progressive Physical Alignment for Dynamic World Simulation
December 5, 2025
Auteurs: Zijun Wang, Panwen Hu, Jing Wang, Terry Jingchen Zhang, Yuhao Cheng, Long Chen, Yiqiang Yan, Zutao Jiang, Hanhui Li, Xiaodan Liang
cs.AI
Samenvatting
Recente vooruitgang in videogeneratie heeft opmerkelijke mogelijkheden getoond voor het bouwen van wereldsimulatoren. Huidige modellen hebben echter nog steeds moeite met het produceren van fysiek consistente resultaten, vooral bij het verwerken van grootschalige of complexe dynamiek. Deze beperking ontstaat voornamelijk doordat bestaande benaderingen isotroop reageren op fysieke prompts en de fijnmazige afstemming tussen gegenereerde inhoud en gelokaliseerde fysieke aanwijzingen verwaarlozen. Om deze uitdagingen aan te pakken, stellen we ProPhy voor, een Progressief Fysiek Afstemmingsraamwerk dat expliciete, fysica-bewuste conditionering en anisotrope generatie mogelijk maakt. ProPhy gebruikt een tweetraps Mixture-of-Physics-Experts (MoPE)-mechanisme voor discriminatieve extractie van fysieke voorkennis, waarbij Semantische Experts semantische fysicaprincipes afleiden uit tekstbeschrijvingen en Verfijnings Experts token-level fysieke dynamiek vastleggen. Dit mechanisme stelt het model in staat fijnmazige, fysica-bewuste videorepresentaties te leren die de onderliggende natuurwetten beter weerspiegelen. Verder introduceren we een fysieke afstemmingsstrategie die het fysieke redeneervermogen van vision-language modellen (VLMs) overbrengt naar de Verfijnings Experts, wat een nauwkeurigere representatie van dynamische fysische fenomenen vergemakkelijkt. Uitgebreide experimenten op benchmarks voor fysica-bewuste videogeneratie tonen aan dat ProPhy realistischer, dynamischer en fysiek coherentere resultaten produceert dan bestaande state-of-the-art methoden.
English
Recent advances in video generation have shown remarkable potential for constructing world simulators. However, current models still struggle to produce physically consistent results, particularly when handling large-scale or complex dynamics. This limitation arises primarily because existing approaches respond isotropically to physical prompts and neglect the fine-grained alignment between generated content and localized physical cues. To address these challenges, we propose ProPhy, a Progressive Physical Alignment Framework that enables explicit physics-aware conditioning and anisotropic generation. ProPhy employs a two-stage Mixture-of-Physics-Experts (MoPE) mechanism for discriminative physical prior extraction, where Semantic Experts infer semantic-level physical principles from textual descriptions, and Refinement Experts capture token-level physical dynamics. This mechanism allows the model to learn fine-grained, physics-aware video representations that better reflect underlying physical laws. Furthermore, we introduce a physical alignment strategy that transfers the physical reasoning capabilities of vision-language models (VLMs) into the Refinement Experts, facilitating a more accurate representation of dynamic physical phenomena. Extensive experiments on physics-aware video generation benchmarks demonstrate that ProPhy produces more realistic, dynamic, and physically coherent results than existing state-of-the-art methods.