Выравнивание физических свойств видео-генеративных моделей во время вывода с использованием латентных моделей мира
Inference-time Physics Alignment of Video Generative Models with Latent World Models
January 15, 2026
Авторы: Jianhao Yuan, Xiaofeng Zhang, Felix Friedrich, Nicolas Beltran-Velez, Melissa Hall, Reyhane Askari-Hemmat, Xiaochuang Han, Nicolas Ballas, Michal Drozdzal, Adriana Romero-Soriano
cs.AI
Аннотация
Современные модели генерации видео создают перспективный визуальный контент, но часто нарушают фундаментальные принципы физики, что ограничивает их практическую применимость. Хотя некоторые связывают этот недостаток с недостаточным пониманием физики на этапе предварительного обучения, мы обнаружили, что проблема физической правдоподобности также проистекает из неоптимальных стратегий вывода. Поэтому мы представляем WMReward и рассматриваем повышение физической правдоподобности генерации видео как задачу согласования на этапе вывода. В частности, мы используем сильный физический априор латентной мировой модели (в данном случае VJEPA-2) в качестве вознаграждения для поиска и управления множественными кандидатными траекториями денойзинга, что позволяет масштабировать вычислительные ресурсы на этапе тестирования для улучшения производительности генерации. Экспериментально наш подход существенно повышает физическую правдоподобность в условиях генерации по изображению, нескольким кадрам и текстовому описанию, что подтверждается исследованием человеческих предпочтений. Примечательно, что на конкурсе PhysicsIQ Challenge ICCV 2025 Perception Test мы достигли итогового результата в 62.64%, заняв первое место и превзойдя предыдущее состояние искусства на 7.42%. Наша работа демонстрирует жизнеспособность использования латентных мировых моделей для улучшения физической правдоподобности генерации видео, выходящую за рамки данной конкретной реализации или параметризации.
English
State-of-the-art video generative models produce promising visual content yet often violate basic physics principles, limiting their utility. While some attribute this deficiency to insufficient physics understanding from pre-training, we find that the shortfall in physics plausibility also stems from suboptimal inference strategies. We therefore introduce WMReward and treat improving physics plausibility of video generation as an inference-time alignment problem. In particular, we leverage the strong physics prior of a latent world model (here, VJEPA-2) as a reward to search and steer multiple candidate denoising trajectories, enabling scaling test-time compute for better generation performance. Empirically, our approach substantially improves physics plausibility across image-conditioned, multiframe-conditioned, and text-conditioned generation settings, with validation from human preference study. Notably, in the ICCV 2025 Perception Test PhysicsIQ Challenge, we achieve a final score of 62.64%, winning first place and outperforming the previous state of the art by 7.42%. Our work demonstrates the viability of using latent world models to improve physics plausibility of video generation, beyond this specific instantiation or parameterization.