ChatPaper.aiChatPaper

ProPhy: Прогрессивное физическое выравнивание для симуляции динамического мира

ProPhy: Progressive Physical Alignment for Dynamic World Simulation

December 5, 2025
Авторы: Zijun Wang, Panwen Hu, Jing Wang, Terry Jingchen Zhang, Yuhao Cheng, Long Chen, Yiqiang Yan, Zutao Jiang, Hanhui Li, Xiaodan Liang
cs.AI

Аннотация

Последние достижения в области генерации видео продемонстрировали значительный потенциал для создания симуляторов реального мира. Однако современные модели по-прежнему сталкиваются с трудностями при генерации физически согласованных результатов, особенно при обработке крупномасштабных или сложных динамических процессов. Это ограничение возникает главным образом из-за того, что существующие подходы изотропно реагируют на физические промпты и игнорируют тонкое соответствие между генерируемым контентом и локализованными физическими сигналами. Для решения этих проблем мы предлагаем ProPhy — прогрессивную структуру физического согласования, которая обеспечивает явное физически-ориентированное кондиционирование и анизотропную генерацию. ProPhy использует двухэтапный механизм смеси экспертов по физике (MoPE) для дискриминативного извлечения физических априорных знаний: семантические эксперты выводят физические принципы на семантическом уровне из текстовых описаний, а эксперты по уточнению захватывают физическую динамику на уровне токенов. Этот механизм позволяет модели изучать детализированные, физически-ориентированные видеопредставления, лучше отражающие фундаментальные физические законы. Кроме того, мы представляем стратегию физического согласования, которая переносит возможности физического рассуждения моделей «визуальный язык» (VLM) в экспертов по уточнению, способствуя более точному представлению динамических физических явлений. Многочисленные эксперименты на бенчмарках по физически-осознанной генерации видео показывают, что ProPhy создает более реалистичные, динамичные и физически согласованные результаты по сравнению с современными методами.
English
Recent advances in video generation have shown remarkable potential for constructing world simulators. However, current models still struggle to produce physically consistent results, particularly when handling large-scale or complex dynamics. This limitation arises primarily because existing approaches respond isotropically to physical prompts and neglect the fine-grained alignment between generated content and localized physical cues. To address these challenges, we propose ProPhy, a Progressive Physical Alignment Framework that enables explicit physics-aware conditioning and anisotropic generation. ProPhy employs a two-stage Mixture-of-Physics-Experts (MoPE) mechanism for discriminative physical prior extraction, where Semantic Experts infer semantic-level physical principles from textual descriptions, and Refinement Experts capture token-level physical dynamics. This mechanism allows the model to learn fine-grained, physics-aware video representations that better reflect underlying physical laws. Furthermore, we introduce a physical alignment strategy that transfers the physical reasoning capabilities of vision-language models (VLMs) into the Refinement Experts, facilitating a more accurate representation of dynamic physical phenomena. Extensive experiments on physics-aware video generation benchmarks demonstrate that ProPhy produces more realistic, dynamic, and physically coherent results than existing state-of-the-art methods.
PDF32December 9, 2025