Physikalische Konsistenz zur Inferenzzeit bei Videogenerationsmodellen durch latente Weltmodelle
Inference-time Physics Alignment of Video Generative Models with Latent World Models
January 15, 2026
papers.authors: Jianhao Yuan, Xiaofeng Zhang, Felix Friedrich, Nicolas Beltran-Velez, Melissa Hall, Reyhane Askari-Hemmat, Xiaochuang Han, Nicolas Ballas, Michal Drozdzal, Adriana Romero-Soriano
cs.AI
papers.abstract
Aktuelle generative Video-Modelle erzeugen vielversprechende visuelle Inhalte, verletzen jedoch häufig grundlegende physikalische Prinzipien, was ihren Nutzen einschränkt. Während einige diesen Mangel auf ein unzureichendes Physikverständnis aus dem Pre-Training zurückführen, stellen wir fest, dass das Defizit an physikalischer Plausibilität auch auf suboptimale Inferenzstrategien zurückgeht. Daher führen wir WMReward ein und behandeln die Verbesserung der physikalischen Plausibilität bei der Videogenerierung als ein Alignment-Problem zur Inferenzzeit. Insbesondere nutzen wir die starke Physik-Prior eines latenten Weltmodells (hier VJEPA-2) als Belohnung, um mehrere Denoising-Trajektorien zu suchen und zu steuern. Dies ermöglicht es, den Rechenaufwand zur Testzeit zu skalieren, um eine bessere Generierungsleistung zu erzielen. Empirisch verbessert unser Ansatz die physikalische Plausibilität erheblich in bildbasierten, multiframe-basierten und textbasierten Generierungsszenarien, was durch eine Human-Preference-Studie validiert wird. Bemerkenswerterweise erzielten wir beim ICCV 2025 Perception Test PhysicsIQ Challenge eine Endpunktzahl von 62,64%, belegten den ersten Platz und übertrafen den vorherigen State-of-the-Art um 7,42%. Unsere Arbeit demonstriert die Machbarkeit der Nutzung latenter Weltmodelle zur Verbesserung der physikalischen Plausibilität von Videogenerierung, über diese spezifische Instanziierung oder Parametrisierung hinaus.
English
State-of-the-art video generative models produce promising visual content yet often violate basic physics principles, limiting their utility. While some attribute this deficiency to insufficient physics understanding from pre-training, we find that the shortfall in physics plausibility also stems from suboptimal inference strategies. We therefore introduce WMReward and treat improving physics plausibility of video generation as an inference-time alignment problem. In particular, we leverage the strong physics prior of a latent world model (here, VJEPA-2) as a reward to search and steer multiple candidate denoising trajectories, enabling scaling test-time compute for better generation performance. Empirically, our approach substantially improves physics plausibility across image-conditioned, multiframe-conditioned, and text-conditioned generation settings, with validation from human preference study. Notably, in the ICCV 2025 Perception Test PhysicsIQ Challenge, we achieve a final score of 62.64%, winning first place and outperforming the previous state of the art by 7.42%. Our work demonstrates the viability of using latent world models to improve physics plausibility of video generation, beyond this specific instantiation or parameterization.