映像生成モデルの推論時物理整合性を潜在世界モデルによる実現
Inference-time Physics Alignment of Video Generative Models with Latent World Models
January 15, 2026
著者: Jianhao Yuan, Xiaofeng Zhang, Felix Friedrich, Nicolas Beltran-Velez, Melissa Hall, Reyhane Askari-Hemmat, Xiaochuang Han, Nicolas Ballas, Michal Drozdzal, Adriana Romero-Soriano
cs.AI
要旨
最先端のビデオ生成モデルは有望な視覚コンテンツを生成するが、基本的な物理法則に違反することが多く、実用性が制限されている。この問題の原因を事前学習における物理理解の不足と考える向きもあるが、我々は物理的妥当性の欠如が、最適でない推論戦略にも起因することを見出した。そこで我々はWMRewardを提案し、ビデオ生成の物理的妥当性向上を推論時のアライメント問題として扱う。具体的には、潜在世界モデル(ここではVJEPA-2)の強力な物理事前知識を報酬として活用し、複数の候補となる脱ノイズ軌道を探索・制御することで、テスト時の計算量をスケーリングし生成性能を向上させる。実験により、本手法が画像条件付き、多フレーム条件付き、テキスト条件付きの各種生成設定において物理的妥当性を大幅に改善し、人間の嗜好性調査でもその有効性が確認された。特にICCV 2025 Perception Test PhysicsIQチャレンジでは62.64%の最終スコアを達成し、従来の最先端手法を7.42%上回って首位を獲得した。本研究は、特定の実装やパラメータ化に依存せず、潜在世界モデルを用いてビデオ生成の物理的妥当性を改善する可能性を示すものである。
English
State-of-the-art video generative models produce promising visual content yet often violate basic physics principles, limiting their utility. While some attribute this deficiency to insufficient physics understanding from pre-training, we find that the shortfall in physics plausibility also stems from suboptimal inference strategies. We therefore introduce WMReward and treat improving physics plausibility of video generation as an inference-time alignment problem. In particular, we leverage the strong physics prior of a latent world model (here, VJEPA-2) as a reward to search and steer multiple candidate denoising trajectories, enabling scaling test-time compute for better generation performance. Empirically, our approach substantially improves physics plausibility across image-conditioned, multiframe-conditioned, and text-conditioned generation settings, with validation from human preference study. Notably, in the ICCV 2025 Perception Test PhysicsIQ Challenge, we achieve a final score of 62.64%, winning first place and outperforming the previous state of the art by 7.42%. Our work demonstrates the viability of using latent world models to improve physics plausibility of video generation, beyond this specific instantiation or parameterization.