ChatPaper.aiChatPaper

Diverse Videogeneratie met Determinantal Point Process-Gestuurde Beleidsoptimalisatie

Diverse Video Generation with Determinantal Point Process-Guided Policy Optimization

November 25, 2025
Auteurs: Tahira Kazimi, Connor Dunlop, Pinar Yanardag
cs.AI

Samenvatting

Hoewel recente tekst-naar-video (T2V) diffusiemodellen indrukwekkende kwaliteit en promptuitlijning hebben bereikt, produceren ze vaak outputs met een lage diversiteit wanneer meerdere video's vanuit een enkele tekstprompt worden gegenereerd. Wij pakken deze uitdaging aan door deze te formuleren als een set-level beleidsoptimalisatieprobleem, met als doel een beleid te trainen dat het diverse scala aan plausibele uitkomsten voor een gegeven prompt kan dekken. Om dit aan te pakken, introduceren we DPP-GRPO, een nieuw raamwerk voor diverse videogeneratie dat Determinantal Point Processes (DPPs) en Group Relative Policy Optimization (GRPO) theorieën combineert om een expliciete beloning af te dwingen voor diverse generaties. Ons doel verandert diversiteit in een expliciet signaal door afnemende meeropbrengsten op te leggen aan redundante samples (via DPP) en tegelijkertijd groepsgewijze feedback te geven over kandidaat-sets (via GRPO). Ons raamwerk is plug-and-play en model-agnostisch, en stimuleert diverse generaties op het gebied van visueel uiterlijk, camerabewegingen en scènestructuur zonder in te leveren op prompttrouw of perceptuele kwaliteit. We implementeren onze methode op WAN en CogVideoX, en tonen aan dat onze methode consistent de videodiversiteit verbetert op state-of-the-art benchmarks zoals VBench, VideoScore en onderzoeken naar menselijke voorkeuren. Bovendien maken we onze code en een nieuwe benchmarkdataset van 30.000 diverse prompts vrij om toekomstig onderzoek te ondersteunen.
English
While recent text-to-video (T2V) diffusion models have achieved impressive quality and prompt alignment, they often produce low-diversity outputs when sampling multiple videos from a single text prompt. We tackle this challenge by formulating it as a set-level policy optimization problem, with the goal of training a policy that can cover the diverse range of plausible outcomes for a given prompt. To address this, we introduce DPP-GRPO, a novel framework for diverse video generation that combines Determinantal Point Processes (DPPs) and Group Relative Policy Optimization (GRPO) theories to enforce explicit reward on diverse generations. Our objective turns diversity into an explicit signal by imposing diminishing returns on redundant samples (via DPP) while supplies groupwise feedback over candidate sets (via GRPO). Our framework is plug-and-play and model-agnostic, and encourages diverse generations across visual appearance, camera motions, and scene structure without sacrificing prompt fidelity or perceptual quality. We implement our method on WAN and CogVideoX, and show that our method consistently improves video diversity on state-of-the-art benchmarks such as VBench, VideoScore, and human preference studies. Moreover, we release our code and a new benchmark dataset of 30,000 diverse prompts to support future research.
PDF22December 1, 2025