ChatPaper.aiChatPaper

ProPhy: Progressive physische Ausrichtung für die Simulation dynamischer Welten

ProPhy: Progressive Physical Alignment for Dynamic World Simulation

December 5, 2025
papers.authors: Zijun Wang, Panwen Hu, Jing Wang, Terry Jingchen Zhang, Yuhao Cheng, Long Chen, Yiqiang Yan, Zutao Jiang, Hanhui Li, Xiaodan Liang
cs.AI

papers.abstract

Jüngste Fortschritte in der Videogenerierung haben ein bemerkenswertes Potenzial für die Erstellung von Weltsimulatoren aufgezeigt. Allerdings haben aktuelle Modelle nach wie vor Schwierigkeiten, physikalisch konsistente Ergebnisse zu erzeugen, insbesondere bei der Verarbeitung großskaliger oder komplexer Dynamiken. Diese Einschränkung ergibt sich hauptsächlich daraus, dass bestehende Ansätze isotrop auf physikalische Eingabeaufforderungen reagieren und die fein abgestimmte Ausrichtung zwischen generierten Inhalten und lokalisierten physikalischen Hinweisen vernachlässigen. Um diese Herausforderungen zu bewältigen, schlagen wir ProPhy vor, ein Progressives Physikalisches Ausrichtungs-Framework, das explizite physikbewusste Konditionierung und anisotrope Generierung ermöglicht. ProPhy verwendet einen zweistufigen Mixture-of-Physics-Experts (MoPE)-Mechanismus zur diskriminativen Extraktion physikalischer Priors, bei dem Semantische Experten semantische physikalische Prinzipien aus Textbeschreibungen ableiten und Verfeinerungs-Experten token-level physikalische Dynamiken erfassen. Dieser Mechanismus ermöglicht es dem Modell, fein abgestufte, physikbewusste Videodarstellungen zu erlernen, die die zugrundeliegenden physikalischen Gesetze besser widerspiegeln. Darüber hinaus führen wir eine physikalische Ausrichtungsstrategie ein, die die physikalischen Reasoning-Fähigkeiten von Vision-Language-Modellen (VLMs) in die Verfeinerungs-Experten überträgt und so eine genauere Darstellung dynamischer physikalischer Phänomene ermöglicht. Umfangreiche Experimente mit Benchmarks für physikbewusste Videogenerierung zeigen, dass ProPhy realistischere, dynamischere und physikalisch kohärentere Ergebnisse liefert als bestehende state-of-the-art Methoden.
English
Recent advances in video generation have shown remarkable potential for constructing world simulators. However, current models still struggle to produce physically consistent results, particularly when handling large-scale or complex dynamics. This limitation arises primarily because existing approaches respond isotropically to physical prompts and neglect the fine-grained alignment between generated content and localized physical cues. To address these challenges, we propose ProPhy, a Progressive Physical Alignment Framework that enables explicit physics-aware conditioning and anisotropic generation. ProPhy employs a two-stage Mixture-of-Physics-Experts (MoPE) mechanism for discriminative physical prior extraction, where Semantic Experts infer semantic-level physical principles from textual descriptions, and Refinement Experts capture token-level physical dynamics. This mechanism allows the model to learn fine-grained, physics-aware video representations that better reflect underlying physical laws. Furthermore, we introduce a physical alignment strategy that transfers the physical reasoning capabilities of vision-language models (VLMs) into the Refinement Experts, facilitating a more accurate representation of dynamic physical phenomena. Extensive experiments on physics-aware video generation benchmarks demonstrate that ProPhy produces more realistic, dynamic, and physically coherent results than existing state-of-the-art methods.
PDF32December 9, 2025