決定点過程誘導型ポリシー最適化による多様な映像生成
Diverse Video Generation with Determinantal Point Process-Guided Policy Optimization
November 25, 2025
著者: Tahira Kazimi, Connor Dunlop, Pinar Yanardag
cs.AI
要旨
近年、テキスト動画(T2V)拡散モデルは、印象的な品質とプロンプトへの忠実度を達成しているが、単一のテキストプロンプトから複数の動画を生成する際、出力の多様性が低くなる傾向がある。我々はこの課題を、集合レベルでの方策最適化問題として定式化し、与えられたプロンプトに対して考えられる多様な結果の範囲をカバーする方策を訓練することを目的として取り組む。この問題に対処するため、我々は多様な動画生成のための新しいフレームワークであるDPP-GRPOを提案する。これは、Determinantal Point Process(DPP)とGroup Relative Policy Optimization(GRPO)の理論を組み合わせ、多様な生成物に対して明示的な報酬を付与するものである。我々の目的関数は、冗長なサンプルに対して収益逓減を課し(DPPにより)、候補集合に対してグループ単位のフィードバックを提供する(GRPOにより)ことで、多様性を明示的な信号として変換する。本フレームワークはプラグアンドプレイかつモデル非依存であり、プロンプトへの忠実度や知覚品質を損なうことなく、視覚的外観、カメラ動作、シーン構造にわたる多様な生成を促進する。我々はこの手法をWANおよびCogVideoX上に実装し、VBench、VideoScore、人間の嗜好調査といった最先端のベンチマークにおいて、本手法が動画の多様性を一貫して向上させることを示す。さらに、将来の研究を支援するため、コードと3万の多様なプロンプトからなる新しいベンチマークデータセットを公開する。
English
While recent text-to-video (T2V) diffusion models have achieved impressive quality and prompt alignment, they often produce low-diversity outputs when sampling multiple videos from a single text prompt. We tackle this challenge by formulating it as a set-level policy optimization problem, with the goal of training a policy that can cover the diverse range of plausible outcomes for a given prompt. To address this, we introduce DPP-GRPO, a novel framework for diverse video generation that combines Determinantal Point Processes (DPPs) and Group Relative Policy Optimization (GRPO) theories to enforce explicit reward on diverse generations. Our objective turns diversity into an explicit signal by imposing diminishing returns on redundant samples (via DPP) while supplies groupwise feedback over candidate sets (via GRPO). Our framework is plug-and-play and model-agnostic, and encourages diverse generations across visual appearance, camera motions, and scene structure without sacrificing prompt fidelity or perceptual quality. We implement our method on WAN and CogVideoX, and show that our method consistently improves video diversity on state-of-the-art benchmarks such as VBench, VideoScore, and human preference studies. Moreover, we release our code and a new benchmark dataset of 30,000 diverse prompts to support future research.