Alignement physique au moment de l'inférence des modèles génératifs vidéo avec des modèles du monde latent
Inference-time Physics Alignment of Video Generative Models with Latent World Models
January 15, 2026
papers.authors: Jianhao Yuan, Xiaofeng Zhang, Felix Friedrich, Nicolas Beltran-Velez, Melissa Hall, Reyhane Askari-Hemmat, Xiaochuang Han, Nicolas Ballas, Michal Drozdzal, Adriana Romero-Soriano
cs.AI
papers.abstract
Les modèles génératifs vidéo de pointe produisent un contenu visuel prometteur mais violent souvent les principes physiques fondamentaux, limitant ainsi leur utilité. Bien que certains attribuent cette déficience à une compréhension insuffisante de la physique acquise lors du pré-entraînement, nous constatons que le déficit de plausibilité physique provient également de stratégies d'inférence sous-optimales. Nous introduisons donc WMReward et traitons l'amélioration de la plausibilité physique de la génération vidéo comme un problème d'alignement au moment de l'inférence. En particulier, nous exploitons le fort a priori physique d'un modèle du monde latent (ici, VJEPA-2) comme récompense pour rechercher et orienter plusieurs trajectoires de débruitage candidates, permettant ainsi de mettre à l'échelle le calcul au moment du test pour une meilleure performance de génération. Empiriquement, notre approche améliore considérablement la plausibilité physique dans des contextes de génération conditionnés par image, par plusieurs images et par texte, avec validation par une étude de préférence humaine. Notamment, lors du défi PhysicsIQ de l'ICCV 2025 Perception Test, nous avons obtenu un score final de 62,64 %, remportant la première place et surpassant l'état de l'art précédent de 7,42 %. Notre travail démontre la viabilité de l'utilisation de modèles du monde latent pour améliorer la plausibilité physique de la génération vidéo, au-delà de cette instanciation ou paramétrisation spécifique.
English
State-of-the-art video generative models produce promising visual content yet often violate basic physics principles, limiting their utility. While some attribute this deficiency to insufficient physics understanding from pre-training, we find that the shortfall in physics plausibility also stems from suboptimal inference strategies. We therefore introduce WMReward and treat improving physics plausibility of video generation as an inference-time alignment problem. In particular, we leverage the strong physics prior of a latent world model (here, VJEPA-2) as a reward to search and steer multiple candidate denoising trajectories, enabling scaling test-time compute for better generation performance. Empirically, our approach substantially improves physics plausibility across image-conditioned, multiframe-conditioned, and text-conditioned generation settings, with validation from human preference study. Notably, in the ICCV 2025 Perception Test PhysicsIQ Challenge, we achieve a final score of 62.64%, winning first place and outperforming the previous state of the art by 7.42%. Our work demonstrates the viability of using latent world models to improve physics plausibility of video generation, beyond this specific instantiation or parameterization.