ChatPaper.aiChatPaper

Alineación Física en Tiempo de Inferencia de Modelos Generativos de Video con Modelos Mundiales Latentes

Inference-time Physics Alignment of Video Generative Models with Latent World Models

January 15, 2026
Autores: Jianhao Yuan, Xiaofeng Zhang, Felix Friedrich, Nicolas Beltran-Velez, Melissa Hall, Reyhane Askari-Hemmat, Xiaochuang Han, Nicolas Ballas, Michal Drozdzal, Adriana Romero-Soriano
cs.AI

Resumen

Los modelos generativos de video de última generación producen contenido visual prometedor, pero a menudo violan principios físicos básicos, lo que limita su utilidad. Si bien algunos atribuyen esta deficiencia a una comprensión física insuficiente adquirida durante el pre-entrenamiento, nosotros encontramos que el déficit en la plausibilidad física también se origina en estrategias de inferencia subóptimas. Por lo tanto, presentamos WMReward y abordamos la mejora de la plausibilidad física en la generación de video como un problema de alineación en tiempo de inferencia. En concreto, aprovechamos el fuerte conocimiento previo de física de un modelo mundial latente (en este caso, VJEPA-2) como recompensa para buscar y guiar múltiples trayectorias de eliminación de ruido candidatas, permitiendo escalar el cómputo en tiempo de prueba para lograr un mejor rendimiento generativo. Empíricamente, nuestro enfoque mejora sustancialmente la plausibilidad física en configuraciones de generación condicionadas por imagen, multifotograma y texto, con validación proveniente de un estudio de preferencia humana. Notablemente, en la prueba PhysicsIQ del ICCV 2025 Perception Test, logramos una puntuación final del 62.64%, obteniendo el primer puesto y superando el estado del arte anterior en un 7.42%. Nuestro trabajo demuestra la viabilidad de utilizar modelos mundiales latentes para mejorar la plausibilidad física de la generación de video, más allá de esta instanciación o parametrización específica.
English
State-of-the-art video generative models produce promising visual content yet often violate basic physics principles, limiting their utility. While some attribute this deficiency to insufficient physics understanding from pre-training, we find that the shortfall in physics plausibility also stems from suboptimal inference strategies. We therefore introduce WMReward and treat improving physics plausibility of video generation as an inference-time alignment problem. In particular, we leverage the strong physics prior of a latent world model (here, VJEPA-2) as a reward to search and steer multiple candidate denoising trajectories, enabling scaling test-time compute for better generation performance. Empirically, our approach substantially improves physics plausibility across image-conditioned, multiframe-conditioned, and text-conditioned generation settings, with validation from human preference study. Notably, in the ICCV 2025 Perception Test PhysicsIQ Challenge, we achieve a final score of 62.64%, winning first place and outperforming the previous state of the art by 7.42%. Our work demonstrates the viability of using latent world models to improve physics plausibility of video generation, beyond this specific instantiation or parameterization.
PDF71January 17, 2026