잠재 세계 모델을 통한 비디오 생성 모델의 추론 시 물리 법칙 정합
Inference-time Physics Alignment of Video Generative Models with Latent World Models
January 15, 2026
저자: Jianhao Yuan, Xiaofeng Zhang, Felix Friedrich, Nicolas Beltran-Velez, Melissa Hall, Reyhane Askari-Hemmat, Xiaochuang Han, Nicolas Ballas, Michal Drozdzal, Adriana Romero-Soriano
cs.AI
초록
최신 영상 생성 모델은 유망한 시각적 콘텐츠를 생성하지만 종종 기본적인 물리 법칙을 위반하여 그 유용성이 제한됩니다. 이러한 결함을 사전 학습의 불충분한 물리 이해로 돌리는 시각도 있으나, 우리는 물리적 타당성 부족이 최적화되지 않은 추론 전략에서도 기인함을 발견했습니다. 이에 따라 우리는 WMReward를 도입하고 영상 생성의 물리적 타당성 향상을 추론 시점 정렬 문제로 접근합니다. 구체적으로, 잠재 세계 모델(본 연구에서는 VJEPA-2)의 강력한 물리 사전 지식을 보상으로 활용하여 여러 후보 잡음 제거 궤적을 탐색하고 조종함으로써, 향상된 생성 성능을 위한 시험 시간 계산 자원 확장이 가능해집니다. 실험적으로 우리의 접근법은 이미지 조건, 다중 프레임 조건, 텍스트 조건 생성 설정 전반에 걸쳐 물리적 타당성을 크게 향상시켰으며, 이는 인간 선호도 연구를 통해 검증되었습니다. 특히 ICCV 2025 Perception Test PhysicsIQ Challenge에서 우리는 62.64%의 최종 점수를 기록하여 1위를 차지했으며, 기존 최신 기술을 7.42% 앞섰습니다. 우리의 연구는 특정 구현체나 매개변수화를 넘어서서 잠재 세계 모델을 활용하여 영상 생성의 물리적 타당성을 향상시킬 수 있는 가능성을 입증합니다.
English
State-of-the-art video generative models produce promising visual content yet often violate basic physics principles, limiting their utility. While some attribute this deficiency to insufficient physics understanding from pre-training, we find that the shortfall in physics plausibility also stems from suboptimal inference strategies. We therefore introduce WMReward and treat improving physics plausibility of video generation as an inference-time alignment problem. In particular, we leverage the strong physics prior of a latent world model (here, VJEPA-2) as a reward to search and steer multiple candidate denoising trajectories, enabling scaling test-time compute for better generation performance. Empirically, our approach substantially improves physics plausibility across image-conditioned, multiframe-conditioned, and text-conditioned generation settings, with validation from human preference study. Notably, in the ICCV 2025 Perception Test PhysicsIQ Challenge, we achieve a final score of 62.64%, winning first place and outperforming the previous state of the art by 7.42%. Our work demonstrates the viability of using latent world models to improve physics plausibility of video generation, beyond this specific instantiation or parameterization.