비디오 생성 모델은 우수한 잠재 보상 모델이다
Video Generation Models Are Good Latent Reward Models
November 26, 2025
저자: Xiaoyue Mi, Wenqing Yu, Jiesong Lian, Shibo Jie, Ruizhe Zhong, Zijun Liu, Guozhen Zhang, Zixiang Zhou, Zhiyong Xu, Yuan Zhou, Qinglin Lu, Fan Tang
cs.AI
초록
보상 피드백 학습(ReFL)은 이미지 생성 모델을 인간의 선호도에 맞추는 데 효과적인 것으로 입증되었습니다. 그러나 이를 비디오 생성으로 확장하는 데는 상당한 어려움이 따릅니다. 기존의 비디오 보상 모델은 픽셀 공간 입력을 위해 설계된 시각-언어 모델에 의존하며, 이로 인해 ReFL 최적화는 계산 비용이 많이 드는 VAE 디코딩 이후인 디노이징(denoising) 과정의 후반부에만 국한됩니다. 이와 같은 픽셀 공간 접근법은 상당한 메모리 오버헤드와 더 긴 학습 시간을 초래하며, 후반부 최적화는 초기 단계의 supervision이 부족하여 근본적인 운동 역학이나 구조적 일관성보다는 시각적 품질만을 개선하게 됩니다. 본 연구에서는 사전 학습된 비디오 생성 모델이 임의의 타임스텝에서 노이즈가 포함된 잠재 표현을 처리하도록 명시적으로 설계되고 순차적 모델링 능력을 통해 시간적 정보를 내재적으로 보존하므로, 노이즈가 있는 잠재 공간에서 보상 모델링에 자연스럽게 적합함을 보여줍니다. 이에 따라 우리는 잠재 공간 전체에서 선호도 최적화를 수행하며 VAE 디코딩 없이 전체 디노이징 체인을 통해 효율적인 경사 역전파를 가능하게 하는 Process Reward Feedback Learning(PRFL) 프레임워크를 제안합니다. 광범위한 실험을 통해 PRFL이 인간의 선호도와의 일치성을 크게 향상시키면서도 RGB ReFL 대비 메모리 사용량과 학습 시간을 상당히 절감할 수 있음을 입증합니다.
English
Reward feedback learning (ReFL) has proven effective for aligning image generation with human preferences. However, its extension to video generation faces significant challenges. Existing video reward models rely on vision-language models designed for pixel-space inputs, confining ReFL optimization to near-complete denoising steps after computationally expensive VAE decoding. This pixel-space approach incurs substantial memory overhead and increased training time, and its late-stage optimization lacks early-stage supervision, refining only visual quality rather than fundamental motion dynamics and structural coherence. In this work, we show that pre-trained video generation models are naturally suited for reward modeling in the noisy latent space, as they are explicitly designed to process noisy latent representations at arbitrary timesteps and inherently preserve temporal information through their sequential modeling capabilities. Accordingly, we propose Process Reward Feedback Learning~(PRFL), a framework that conducts preference optimization entirely in latent space, enabling efficient gradient backpropagation throughout the full denoising chain without VAE decoding. Extensive experiments demonstrate that PRFL significantly improves alignment with human preferences, while achieving substantial reductions in memory consumption and training time compared to RGB ReFL.