ChatPaper.aiChatPaper

Alinhamento Físico em Tempo de Inferência de Modelos Geradores de Vídeo com Modelos de Mundo Latentes

Inference-time Physics Alignment of Video Generative Models with Latent World Models

January 15, 2026
Autores: Jianhao Yuan, Xiaofeng Zhang, Felix Friedrich, Nicolas Beltran-Velez, Melissa Hall, Reyhane Askari-Hemmat, Xiaochuang Han, Nicolas Ballas, Michal Drozdzal, Adriana Romero-Soriano
cs.AI

Resumo

Os modelos generativos de vídeo de última geração produzem conteúdo visual promissor, mas frequentemente violam princípios físicos básicos, limitando sua utilidade. Embora alguns atribuam essa deficiência a um entendimento insuficiente da física proveniente do pré-treinamento, descobrimos que a lacuna na plausibilidade física também decorre de estratégias de inferência subótimas. Portanto, introduzimos o WMReward e tratamos a melhoria da plausibilidade física na geração de vídeo como um problema de alinhamento no momento da inferência. Especificamente, aproveitamos a forte física anterior de um modelo mundial latente (aqui, VJEPA-2) como uma recompensa para buscar e direcionar múltiplos trajetos de remoção de ruído candidatos, permitindo escalar o cálculo no momento do teste para melhor desempenho na geração. Empiricamente, nossa abordagem melhora substancialmente a plausibilidade física em configurações de geração condicionadas por imagem, multiframe e texto, com validação de um estudo de preferência humana. Notavelmente, no ICCV 2025 Perception Test PhysicsIQ Challenge, alcançamos uma pontuação final de 62,64%, conquistando o primeiro lugar e superando o estado da arte anterior em 7,42%. Nosso trabalho demonstra a viabilidade de usar modelos mundiais latentes para melhorar a plausibilidade física da geração de vídeo, além desta instanciação ou parametrização específica.
English
State-of-the-art video generative models produce promising visual content yet often violate basic physics principles, limiting their utility. While some attribute this deficiency to insufficient physics understanding from pre-training, we find that the shortfall in physics plausibility also stems from suboptimal inference strategies. We therefore introduce WMReward and treat improving physics plausibility of video generation as an inference-time alignment problem. In particular, we leverage the strong physics prior of a latent world model (here, VJEPA-2) as a reward to search and steer multiple candidate denoising trajectories, enabling scaling test-time compute for better generation performance. Empirically, our approach substantially improves physics plausibility across image-conditioned, multiframe-conditioned, and text-conditioned generation settings, with validation from human preference study. Notably, in the ICCV 2025 Perception Test PhysicsIQ Challenge, we achieve a final score of 62.64%, winning first place and outperforming the previous state of the art by 7.42%. Our work demonstrates the viability of using latent world models to improve physics plausibility of video generation, beyond this specific instantiation or parameterization.
PDF125February 8, 2026