Vielfältige Videogenerierung mit Determinantal Point Process-geführter Politikoptimierung
Diverse Video Generation with Determinantal Point Process-Guided Policy Optimization
November 25, 2025
papers.authors: Tahira Kazimi, Connor Dunlop, Pinar Yanardag
cs.AI
papers.abstract
Während neuere Text-zu-Video (T2V) Diffusionsmodelle beeindruckende Qualität und Prompt-Treue erreicht haben, erzeugen sie häufig Ausgaben mit geringer Diversität, wenn mehrere Videos aus einem einzelnen Text-Prompt generiert werden. Wir adressieren diese Herausforderung, indem wir sie als Problem der Policy-Optimierung auf Mengenebene formulieren, mit dem Ziel, eine Policy zu trainieren, die die vielfältige Bandbreite plausibler Ergebnisse für einen gegebenen Prompt abdeckt. Um dies zu lösen, führen wir DPP-GRPO ein, einen neuartigen Rahmen für die Erzeugung diverser Videos, der die Theorien der Determinantal Point Processes (DPPs) und des Group Relative Policy Optimization (GRPO) kombiniert, um eine explizite Belohnung für diverse Generierungen zu erzwingen. Unser Ziel ist es, Diversität in ein explizites Signal zu verwandeln, indem abnehmende Erträge für redundante Stichproben auferlegt werden (mittels DPP) und gleichzeitig gruppenweises Feedback über Kandidatenmengen bereitgestellt wird (mittels GRPO). Unser Framework ist plug-and-play und modellagnostisch und fördert diverse Generierungen in Bezug auf visuelle Erscheinung, Kamerabewegungen und Szenenstruktur, ohne dabei die Prompt-Treue oder die perzeptive Qualität zu opfern. Wir implementieren unsere Methode auf WAN und CogVideoX und zeigen, dass unsere Methode die Videodiversität auf State-of-the-Art-Benchmarks wie VBench, VideoScore und in Studien zur menschlichen Präferenz konsistent verbessert. Darüber hinaus veröffentlichen wir unseren Code und einen neuen Benchmark-Datensatz mit 30.000 diversen Prompts, um zukünftige Forschung zu unterstützen.
English
While recent text-to-video (T2V) diffusion models have achieved impressive quality and prompt alignment, they often produce low-diversity outputs when sampling multiple videos from a single text prompt. We tackle this challenge by formulating it as a set-level policy optimization problem, with the goal of training a policy that can cover the diverse range of plausible outcomes for a given prompt. To address this, we introduce DPP-GRPO, a novel framework for diverse video generation that combines Determinantal Point Processes (DPPs) and Group Relative Policy Optimization (GRPO) theories to enforce explicit reward on diverse generations. Our objective turns diversity into an explicit signal by imposing diminishing returns on redundant samples (via DPP) while supplies groupwise feedback over candidate sets (via GRPO). Our framework is plug-and-play and model-agnostic, and encourages diverse generations across visual appearance, camera motions, and scene structure without sacrificing prompt fidelity or perceptual quality. We implement our method on WAN and CogVideoX, and show that our method consistently improves video diversity on state-of-the-art benchmarks such as VBench, VideoScore, and human preference studies. Moreover, we release our code and a new benchmark dataset of 30,000 diverse prompts to support future research.