ChatPaper.aiChatPaper

Generazione di Video Diversificati con Ottimizzazione delle Politiche Guidata da Processi Puntuali Determinantali

Diverse Video Generation with Determinantal Point Process-Guided Policy Optimization

November 25, 2025
Autori: Tahira Kazimi, Connor Dunlop, Pinar Yanardag
cs.AI

Abstract

Sebbene i recenti modelli di diffusione text-to-video (T2V) abbiano ottenuto una qualità e un allineamento al prompt impressionanti, spesso producono output a bassa diversità quando si campionano più video a partire da un singolo prompt testuale. Affrontiamo questa sfida formulandola come un problema di ottimizzazione di politiche a livello di insieme, con l'obiettivo di addestrare una politica in grado di coprire l'ampio spettro di risultati plausibili per un dato prompt. Per risolvere questo problema, introduciamo DPP-GRPO, un nuovo framework per la generazione di video diversificati che combina le teorie dei Processi Puntuali Determinantali (DPP) e dell'Ottimizzazione Relativa di Politiche di Gruppo (GRPO) per applicare una ricompensa esplicita sulle generazioni diverse. Il nostro obiettivo trasforma la diversità in un segnale esplicito imponendo rendimenti decrescenti sui campioni ridondanti (tramite DPP) fornendo al contempo un feedback collettivo sugli insiemi di candidati (tramite GRPO). Il nostro framework è plug-and-play e indipendente dal modello, e incentiva generazioni diversificate nell'aspetto visivo, nei movimenti della telecamera e nella struttura della scena senza sacrificare la fedeltà al prompt o la qualità percettiva. Implementiamo il nostro metodo su WAN e CogVideoX, e dimostriamo che il nostro metodo migliora costantemente la diversità video su benchmark all'avanguardia come VBench, VideoScore e studi sulle preferenze umane. Inoltre, rilasciamo il nostro codice e un nuovo dataset di benchmark composto da 30.000 prompt diversificati per supportare la ricerca futura.
English
While recent text-to-video (T2V) diffusion models have achieved impressive quality and prompt alignment, they often produce low-diversity outputs when sampling multiple videos from a single text prompt. We tackle this challenge by formulating it as a set-level policy optimization problem, with the goal of training a policy that can cover the diverse range of plausible outcomes for a given prompt. To address this, we introduce DPP-GRPO, a novel framework for diverse video generation that combines Determinantal Point Processes (DPPs) and Group Relative Policy Optimization (GRPO) theories to enforce explicit reward on diverse generations. Our objective turns diversity into an explicit signal by imposing diminishing returns on redundant samples (via DPP) while supplies groupwise feedback over candidate sets (via GRPO). Our framework is plug-and-play and model-agnostic, and encourages diverse generations across visual appearance, camera motions, and scene structure without sacrificing prompt fidelity or perceptual quality. We implement our method on WAN and CogVideoX, and show that our method consistently improves video diversity on state-of-the-art benchmarks such as VBench, VideoScore, and human preference studies. Moreover, we release our code and a new benchmark dataset of 30,000 diverse prompts to support future research.
PDF22December 1, 2025