Allineamento Fisico al Momento dell'Inferenza nei Modelli Generativi di Video con Modelli di Mondo Latenti

Abstract

I modelli generativi video all'avanguardia producono contenuti visivi promettenti, ma violano spesso principi fisici di base, limitandone l'utilità. Sebbene alcuni attribuiscano questa carenza a una comprensione insufficiente della fisica derivante dal pre-addestramento, noi riteniamo che la mancanza di plausibilità fisica derivi anche da strategie di inferenza subottimali. Introduciamo quindi WMReward e trattiamo il miglioramento della plausibilità fisica nella generazione video come un problema di allineamento al momento dell'inferenza. In particolare, sfruttiamo il forte prior fisico di un modello mondiale latente (in questo caso, VJEPA-2) come ricompensa per cercare e guidare multiple traiettorie di denoising candidate, consentendo di scalare il calcolo al momento del test per ottenere prestazioni generative migliori. Empiricamente, il nostro approccio migliora sostanzialmente la plausibilità fisica in contesti di generazione condizionata da immagini, da multi-frame e da testo, con validazione proveniente da uno studio sulle preferenze umane. In modo significativo, nella ICCV 2025 Perception Test PhysicsIQ Challenge, abbiamo ottenuto un punteggio finale del 62,64%, vincendo il primo posto e superando lo stato dell'arte precedente del 7,42%. Il nostro lavoro dimostra la fattibilità dell'utilizzo di modelli mondiali latenti per migliorare la plausibilità fisica della generazione video, al di là di questa specifica istanziazione o parametrizzazione.

English

State-of-the-art video generative models produce promising visual content yet often violate basic physics principles, limiting their utility. While some attribute this deficiency to insufficient physics understanding from pre-training, we find that the shortfall in physics plausibility also stems from suboptimal inference strategies. We therefore introduce WMReward and treat improving physics plausibility of video generation as an inference-time alignment problem. In particular, we leverage the strong physics prior of a latent world model (here, VJEPA-2) as a reward to search and steer multiple candidate denoising trajectories, enabling scaling test-time compute for better generation performance. Empirically, our approach substantially improves physics plausibility across image-conditioned, multiframe-conditioned, and text-conditioned generation settings, with validation from human preference study. Notably, in the ICCV 2025 Perception Test PhysicsIQ Challenge, we achieve a final score of 62.64%, winning first place and outperforming the previous state of the art by 7.42%. Our work demonstrates the viability of using latent world models to improve physics plausibility of video generation, beyond this specific instantiation or parameterization.

Allineamento Fisico al Momento dell'Inferenza nei Modelli Generativi di Video con Modelli di Mondo Latenti

Inference-time Physics Alignment of Video Generative Models with Latent World Models

Abstract

Support