ProPhy: Alineación Física Progresiva para la Simulación de Mundos Dinámicos
ProPhy: Progressive Physical Alignment for Dynamic World Simulation
December 5, 2025
Autores: Zijun Wang, Panwen Hu, Jing Wang, Terry Jingchen Zhang, Yuhao Cheng, Long Chen, Yiqiang Yan, Zutao Jiang, Hanhui Li, Xiaodan Liang
cs.AI
Resumen
Los recientes avances en generación de vídeo han demostrado un notable potencial para construir simuladores del mundo. Sin embargo, los modelos actuales aún tienen dificultades para producir resultados físicamente consistentes, especialmente al manejar dinámicas a gran escala o complejas. Esta limitación surge principalmente porque los enfoques existentes responden de manera isotrópica a las indicaciones físicas y descuidan la alineación granular entre el contenido generado y las señales físicas localizadas. Para abordar estos desafíos, proponemos ProPhy, un Marco de Alineación Física Progresiva que permite un condicionamiento explícito consciente de la física y una generación anisotrópica. ProPhy emplea un mecanismo de dos etapas de Mezcla de Expertos en Física (MoPE) para la extracción discriminatoria de previos físicos, donde los Expertos Semánticos infieren principios físicos a nivel semántico a partir de descripciones textuales, y los Expertos de Refinamiento capturan dinámicas físicas a nivel de tokens. Este mecanismo permite al modelo aprender representaciones de vídeo conscientes de la física y de grano fino que reflejan mejor las leyes físicas subyacentes. Además, introducimos una estrategia de alineación física que transfiere las capacidades de razonamiento físico de los modelos de visión y lenguaje (VLMs) a los Expertos de Refinamiento, facilitando una representación más precisa de los fenómenos físicos dinámicos. Experimentos exhaustivos en benchmarks de generación de vídeo consciente de la física demuestran que ProPhy produce resultados más realistas, dinámicos y físicamente coherentes que los métodos state-of-the-art existentes.
English
Recent advances in video generation have shown remarkable potential for constructing world simulators. However, current models still struggle to produce physically consistent results, particularly when handling large-scale or complex dynamics. This limitation arises primarily because existing approaches respond isotropically to physical prompts and neglect the fine-grained alignment between generated content and localized physical cues. To address these challenges, we propose ProPhy, a Progressive Physical Alignment Framework that enables explicit physics-aware conditioning and anisotropic generation. ProPhy employs a two-stage Mixture-of-Physics-Experts (MoPE) mechanism for discriminative physical prior extraction, where Semantic Experts infer semantic-level physical principles from textual descriptions, and Refinement Experts capture token-level physical dynamics. This mechanism allows the model to learn fine-grained, physics-aware video representations that better reflect underlying physical laws. Furthermore, we introduce a physical alignment strategy that transfers the physical reasoning capabilities of vision-language models (VLMs) into the Refinement Experts, facilitating a more accurate representation of dynamic physical phenomena. Extensive experiments on physics-aware video generation benchmarks demonstrate that ProPhy produces more realistic, dynamic, and physically coherent results than existing state-of-the-art methods.