報酬勾配によるビデオ拡散アライメント
Video Diffusion Alignment via Reward Gradients
July 11, 2024
著者: Mihir Prabhudesai, Russell Mendonca, Zheyang Qin, Katerina Fragkiadaki, Deepak Pathak
cs.AI
要旨
基盤的なビデオ拡散モデルの構築に向けて、我々は重要な進展を遂げました。これらのモデルは大規模な教師なしデータを用いて訓練されるため、特定の下流タスクに適応させることが極めて重要となっています。教師ありファインチューニングによるモデルの適応には、対象となるビデオデータセットの収集が必要ですが、これは困難で煩雑な作業です。本研究では、強力な視覚識別モデル上で選好学習によって得られた事前訓練済み報酬モデルを活用し、ビデオ拡散モデルを適応させます。これらのモデルは、生成されたRGBピクセルに関する密な勾配情報を含んでおり、ビデオのような複雑な探索空間における効率的な学習に不可欠です。報酬モデルからの勾配をビデオ拡散モデルに逆伝播させることで、計算量とサンプル効率の観点からビデオ拡散モデルの整合性を高められることを示します。様々な報酬モデルとビデオ拡散モデルを用いた実験結果から、本手法が従来の勾配不要なアプローチに比べて、報酬クエリと計算量の面で遥かに効率的に学習できることを実証します。コード、モデル重み、および追加の可視化結果はhttps://vader-vid.github.ioで公開しています。
English
We have made significant progress towards building foundational video
diffusion models. As these models are trained using large-scale unsupervised
data, it has become crucial to adapt these models to specific downstream tasks.
Adapting these models via supervised fine-tuning requires collecting target
datasets of videos, which is challenging and tedious. In this work, we utilize
pre-trained reward models that are learned via preferences on top of powerful
vision discriminative models to adapt video diffusion models. These models
contain dense gradient information with respect to generated RGB pixels, which
is critical to efficient learning in complex search spaces, such as videos. We
show that backpropagating gradients from these reward models to a video
diffusion model can allow for compute and sample efficient alignment of the
video diffusion model. We show results across a variety of reward models and
video diffusion models, demonstrating that our approach can learn much more
efficiently in terms of reward queries and computation than prior gradient-free
approaches. Our code, model weights,and more visualization are available at
https://vader-vid.github.io.Summary
AI-Generated Summary