ChatPaper.aiChatPaper

ProPhy : Alignement physique progressif pour la simulation de mondes dynamiques

ProPhy: Progressive Physical Alignment for Dynamic World Simulation

December 5, 2025
papers.authors: Zijun Wang, Panwen Hu, Jing Wang, Terry Jingchen Zhang, Yuhao Cheng, Long Chen, Yiqiang Yan, Zutao Jiang, Hanhui Li, Xiaodan Liang
cs.AI

papers.abstract

Les progrès récents en génération vidéo ont démontré un potentiel remarquable pour la construction de simulateurs mondiaux. Cependant, les modèles actuels peinent encore à produire des résultats physiquement cohérents, en particulier lors de la gestion de dynamiques à grande échelle ou complexes. Cette limitation découle principalement du fait que les approches existantes répondent de manière isotrope aux invites physiques et négligent l'alignement granulaire entre le contenu généré et les indices physiques localisés. Pour relever ces défis, nous proposons ProPhy, un Cadre d'Alignement Physique Progressif qui permet un conditionnement explicite conscient de la physique et une génération anisotrope. ProPhy utilise un mécanisme en deux étapes de Mélange d'Experts en Physique (MoPE) pour l'extraction discriminative de prérequis physiques, où des Experts Sémantiques infèrent des principes physiques au niveau sémantique à partir de descriptions textuelles, et des Experts de Raffinement capturent la dynamique physique au niveau des tokens. Ce mécanisme permet au modèle d'apprendre des représentations vidéo granulaires et conscientes de la physique qui reflètent mieux les lois physiques sous-jacentes. De plus, nous introduisons une stratégie d'alignement physique qui transfère les capacités de raisonnement physique des modèles vision-langage (VLM) vers les Experts de Raffinement, facilitant une représentation plus précise des phénomènes physiques dynamiques. Des expériences approfondies sur des benchmarks de génération vidéo consciente de la physique démontrent que ProPhy produit des résultats plus réalistes, dynamiques et physiquement cohérents que les méthodes état de l'art existantes.
English
Recent advances in video generation have shown remarkable potential for constructing world simulators. However, current models still struggle to produce physically consistent results, particularly when handling large-scale or complex dynamics. This limitation arises primarily because existing approaches respond isotropically to physical prompts and neglect the fine-grained alignment between generated content and localized physical cues. To address these challenges, we propose ProPhy, a Progressive Physical Alignment Framework that enables explicit physics-aware conditioning and anisotropic generation. ProPhy employs a two-stage Mixture-of-Physics-Experts (MoPE) mechanism for discriminative physical prior extraction, where Semantic Experts infer semantic-level physical principles from textual descriptions, and Refinement Experts capture token-level physical dynamics. This mechanism allows the model to learn fine-grained, physics-aware video representations that better reflect underlying physical laws. Furthermore, we introduce a physical alignment strategy that transfers the physical reasoning capabilities of vision-language models (VLMs) into the Refinement Experts, facilitating a more accurate representation of dynamic physical phenomena. Extensive experiments on physics-aware video generation benchmarks demonstrate that ProPhy produces more realistic, dynamic, and physically coherent results than existing state-of-the-art methods.
PDF32December 9, 2025