Fysica-afstemming tijdens inferentie van videogeneratieve modellen met latente wereldmodellen

Samenvatting

State-of-the-art videogeneratieve modellen produceren veelbelovende visuele inhoud, maar schenden vaak fundamentele natuurkundige principes, wat hun bruikbaarheid beperkt. Hoewel sommigen dit tekort toeschrijven aan een onvoldoende begrip van de natuurkunde door pre-training, stellen wij vast dat het gebrek aan fysische plausibiliteit ook voortkomt uit suboptimale inferentiestrategieën. Daarom introduceren wij WMReward en benaderen het verbeteren van de fysische plausibiliteit van videogeneratie als een aligneringsprobleem tijdens de inferentiefase. In het bijzonder maken wij gebruik van de sterke fysische prior van een latent wereldmodel (hier, VJEPA-2) als beloning om meerdere kandidaat-ontruisingspaden te doorzoeken en bij te sturen, waardoor het mogelijk wordt om rekenkracht tijdens de testfase op te schalen voor betere generatieprestaties. Empirisch gezien verbetert onze aanpak de fysische plausibiliteit aanzienlijk in beeld-gestuurde, multiframe-gestuurde en tekst-gestuurde generatie-instellingen, wat wordt bevestigd door een onderzoek naar menselijke voorkeur. Opmerkelijk is dat wij in de ICCV 2025 Perception Test PhysicsIQ Challenge een eindscore van 62,64% behaalden, de eerste plaats veroverden en de vorige state-of-the-art met 7,42% overtroffen. Ons werk toont de haalbaarheid aan van het gebruik van latente wereldmodellen om de fysische plausibiliteit van videogeneratie te verbeteren, los van deze specifieke instantiatie of parameterisering.

English

State-of-the-art video generative models produce promising visual content yet often violate basic physics principles, limiting their utility. While some attribute this deficiency to insufficient physics understanding from pre-training, we find that the shortfall in physics plausibility also stems from suboptimal inference strategies. We therefore introduce WMReward and treat improving physics plausibility of video generation as an inference-time alignment problem. In particular, we leverage the strong physics prior of a latent world model (here, VJEPA-2) as a reward to search and steer multiple candidate denoising trajectories, enabling scaling test-time compute for better generation performance. Empirically, our approach substantially improves physics plausibility across image-conditioned, multiframe-conditioned, and text-conditioned generation settings, with validation from human preference study. Notably, in the ICCV 2025 Perception Test PhysicsIQ Challenge, we achieve a final score of 62.64%, winning first place and outperforming the previous state of the art by 7.42%. Our work demonstrates the viability of using latent world models to improve physics plausibility of video generation, beyond this specific instantiation or parameterization.

Fysica-afstemming tijdens inferentie van videogeneratieve modellen met latente wereldmodellen

Inference-time Physics Alignment of Video Generative Models with Latent World Models

Samenvatting

Support