ChatPaper.aiChatPaper

ビデオ生成モデルは優れた潜在報酬モデルである

Video Generation Models Are Good Latent Reward Models

November 26, 2025
著者: Xiaoyue Mi, Wenqing Yu, Jiesong Lian, Shibo Jie, Ruizhe Zhong, Zijun Liu, Guozhen Zhang, Zixiang Zhou, Zhiyong Xu, Yuan Zhou, Qinglin Lu, Fan Tang
cs.AI

要旨

Reward Feedback Learning (ReFL) は、画像生成を人間の選好に合わせるために有効であることが実証されている。しかし、これを動画生成に拡張するには大きな課題がある。既存の動画報酬モデルは、ピクセル空間入力を想定して設計された視覚言語モデルに依存しており、ReFLの最適化は、計算コストの高いVAE復号後の、ほぼ完了したデノイジング段階に限定されている。このピクセル空間アプローチは、多大なメモリオーバーヘッドと訓練時間の増加をもたらし、その後段階での最適化は初期段階の監督を欠き、基本的な動態や構造的一貫性ではなく、視覚的品質のみを調整するに留まる。本研究では、事前学習済み動画生成モデルが、任意のタイムステップにおけるノイジーな潜在表現を処理するように明示的に設計され、逐次モデリング能力を通じて時間情報を本質的に保持するため、ノイジーな潜在空間における報酬モデリングに自然に適していることを示す。これに基づき、我々は Process Reward Feedback Learning (PRFL) を提案する。このフレームワークは、最適化を完全に潜在空間内で実行し、VAE復号なしでデノイジング連鎖全体を通じた効率的な勾配逆伝播を可能にする。大規模な実験により、PRFLが人間の選好との整合性を大幅に改善しつつ、RGB ReFLと比較してメモリ消費量と訓練時間を大幅に削減できることを実証する。
English
Reward feedback learning (ReFL) has proven effective for aligning image generation with human preferences. However, its extension to video generation faces significant challenges. Existing video reward models rely on vision-language models designed for pixel-space inputs, confining ReFL optimization to near-complete denoising steps after computationally expensive VAE decoding. This pixel-space approach incurs substantial memory overhead and increased training time, and its late-stage optimization lacks early-stage supervision, refining only visual quality rather than fundamental motion dynamics and structural coherence. In this work, we show that pre-trained video generation models are naturally suited for reward modeling in the noisy latent space, as they are explicitly designed to process noisy latent representations at arbitrary timesteps and inherently preserve temporal information through their sequential modeling capabilities. Accordingly, we propose Process Reward Feedback Learning~(PRFL), a framework that conducts preference optimization entirely in latent space, enabling efficient gradient backpropagation throughout the full denoising chain without VAE decoding. Extensive experiments demonstrate that PRFL significantly improves alignment with human preferences, while achieving substantial reductions in memory consumption and training time compared to RGB ReFL.
PDF344December 1, 2025