Alinhamento Físico em Tempo de Inferência de Modelos Geradores de Vídeo com Modelos de Mundo Latentes

Resumo

Os modelos generativos de vídeo de última geração produzem conteúdo visual promissor, mas frequentemente violam princípios físicos básicos, limitando sua utilidade. Embora alguns atribuam essa deficiência a um entendimento insuficiente da física proveniente do pré-treinamento, descobrimos que a lacuna na plausibilidade física também decorre de estratégias de inferência subótimas. Portanto, introduzimos o WMReward e tratamos a melhoria da plausibilidade física na geração de vídeo como um problema de alinhamento no momento da inferência. Especificamente, aproveitamos a forte física anterior de um modelo mundial latente (aqui, VJEPA-2) como uma recompensa para buscar e direcionar múltiplos trajetos de remoção de ruído candidatos, permitindo escalar o cálculo no momento do teste para melhor desempenho na geração. Empiricamente, nossa abordagem melhora substancialmente a plausibilidade física em configurações de geração condicionadas por imagem, multiframe e texto, com validação de um estudo de preferência humana. Notavelmente, no ICCV 2025 Perception Test PhysicsIQ Challenge, alcançamos uma pontuação final de 62,64%, conquistando o primeiro lugar e superando o estado da arte anterior em 7,42%. Nosso trabalho demonstra a viabilidade de usar modelos mundiais latentes para melhorar a plausibilidade física da geração de vídeo, além desta instanciação ou parametrização específica.

English

State-of-the-art video generative models produce promising visual content yet often violate basic physics principles, limiting their utility. While some attribute this deficiency to insufficient physics understanding from pre-training, we find that the shortfall in physics plausibility also stems from suboptimal inference strategies. We therefore introduce WMReward and treat improving physics plausibility of video generation as an inference-time alignment problem. In particular, we leverage the strong physics prior of a latent world model (here, VJEPA-2) as a reward to search and steer multiple candidate denoising trajectories, enabling scaling test-time compute for better generation performance. Empirically, our approach substantially improves physics plausibility across image-conditioned, multiframe-conditioned, and text-conditioned generation settings, with validation from human preference study. Notably, in the ICCV 2025 Perception Test PhysicsIQ Challenge, we achieve a final score of 62.64%, winning first place and outperforming the previous state of the art by 7.42%. Our work demonstrates the viability of using latent world models to improve physics plausibility of video generation, beyond this specific instantiation or parameterization.