ChatPaper.aiChatPaper

Génération de vidéos diversifiées par optimisation de politique guidée par les processus de points déterminantaux

Diverse Video Generation with Determinantal Point Process-Guided Policy Optimization

November 25, 2025
papers.authors: Tahira Kazimi, Connor Dunlop, Pinar Yanardag
cs.AI

papers.abstract

Si les récents modèles de diffusion texte-vidéo (T2V) ont atteint une qualité et un alignement impressionnants avec les prompts, ils produisent souvent des résultats peu diversifiés lors de l'échantillonnage de plusieurs vidéos à partir d'une même instruction textuelle. Nous abordons ce défi en le formulant comme un problème d'optimisation de politique au niveau ensembliste, avec pour objectif d'entraîner une politique capable de couvrir l'éventail diversifié des résultats plausibles pour un prompt donné. Pour y parvenir, nous présentons DPP-GRPO, un nouveau cadre pour la génération de vidéos diversifiées qui combine les théories des Processus Ponctuels Déterministants (DPP) et de l'Optimisation Relative des Politiques par Groupe (GRPO) pour imposer une récompense explicite sur les générations diversifiées. Notre objectif transforme la diversité en un signal explicite en imposant des rendements décroissants sur les échantillons redondants (via DPP) tout en fournissant un retour d'évaluation par groupe sur des ensembles de candidats (via GRPO). Notre cadre est plug-and-play et agnostique au modèle, et encourage la diversité des générations sur l'apparence visuelle, les mouvements de caméra et la structure des scènes sans sacrifier la fidélité au prompt ou la qualité perceptuelle. Nous implémentons notre méthode sur WAN et CogVideoX, et montrons qu'elle améliore constamment la diversité vidéo sur des benchmarks de référence tels que VBench, VideoScore et des études de préférence humaine. De plus, nous publions notre code ainsi qu'un nouveau jeu de données de référence contenant 30 000 prompts diversifiés pour soutenir les recherches futures.
English
While recent text-to-video (T2V) diffusion models have achieved impressive quality and prompt alignment, they often produce low-diversity outputs when sampling multiple videos from a single text prompt. We tackle this challenge by formulating it as a set-level policy optimization problem, with the goal of training a policy that can cover the diverse range of plausible outcomes for a given prompt. To address this, we introduce DPP-GRPO, a novel framework for diverse video generation that combines Determinantal Point Processes (DPPs) and Group Relative Policy Optimization (GRPO) theories to enforce explicit reward on diverse generations. Our objective turns diversity into an explicit signal by imposing diminishing returns on redundant samples (via DPP) while supplies groupwise feedback over candidate sets (via GRPO). Our framework is plug-and-play and model-agnostic, and encourages diverse generations across visual appearance, camera motions, and scene structure without sacrificing prompt fidelity or perceptual quality. We implement our method on WAN and CogVideoX, and show that our method consistently improves video diversity on state-of-the-art benchmarks such as VBench, VideoScore, and human preference studies. Moreover, we release our code and a new benchmark dataset of 30,000 diverse prompts to support future research.
PDF22December 1, 2025