ProPhy: Alinhamento Físico Progressivo para Simulação de Mundos Dinâmicos

Resumo

Os recentes avanços na geração de vídeo têm demonstrado um potencial notável para a construção de simuladores de mundo. No entanto, os modelos atuais ainda lutam para produzir resultados fisicamente consistentes, especialmente ao lidar com dinâmicas complexas ou em larga escala. Esta limitação surge principalmente porque as abordagens existentes respondem isotropicamente a *prompts* físicos e negligenciam o alinhamento refinado entre o conteúdo gerado e as pistas físicas localizadas. Para enfrentar esses desafios, propomos o ProPhy, uma Estrutura de Alinhamento Físico Progressivo que permite um condicionamento explicitamente consciente da física e uma geração anisotrópica. O ProPhy emprega um mecanismo de dois estágios, Mistura de Especialistas em Física (MoPE), para a extração discriminativa de *prior* físicos, no qual Especialistas Semânticos inferem princípios físicos a nível semântico a partir de descrições textuais, e Especialistas de Refinamento capturam a dinâmica física a nível de *token*. Este mecanismo permite ao modelo aprender representações de vídeo refinadas e conscientes da física que refletem melhor as leis físicas subjacentes. Além disso, introduzimos uma estratégia de alinhamento físico que transfere as capacidades de raciocínio físico dos modelos de visão e linguagem (VLMs) para os Especialistas de Refinamento, facilitando uma representação mais precisa de fenômenos físicos dinâmicos. Experimentos extensos em benchmarks de geração de vídeo consciente da física demonstram que o ProPhy produz resultados mais realistas, dinâmicos e fisicamente coerentes do que os métodos state-of-the-art existentes.

English

Recent advances in video generation have shown remarkable potential for constructing world simulators. However, current models still struggle to produce physically consistent results, particularly when handling large-scale or complex dynamics. This limitation arises primarily because existing approaches respond isotropically to physical prompts and neglect the fine-grained alignment between generated content and localized physical cues. To address these challenges, we propose ProPhy, a Progressive Physical Alignment Framework that enables explicit physics-aware conditioning and anisotropic generation. ProPhy employs a two-stage Mixture-of-Physics-Experts (MoPE) mechanism for discriminative physical prior extraction, where Semantic Experts infer semantic-level physical principles from textual descriptions, and Refinement Experts capture token-level physical dynamics. This mechanism allows the model to learn fine-grained, physics-aware video representations that better reflect underlying physical laws. Furthermore, we introduce a physical alignment strategy that transfers the physical reasoning capabilities of vision-language models (VLMs) into the Refinement Experts, facilitating a more accurate representation of dynamic physical phenomena. Extensive experiments on physics-aware video generation benchmarks demonstrate that ProPhy produces more realistic, dynamic, and physically coherent results than existing state-of-the-art methods.