Generación Diversa de Videos con Optimización de Políticas Guiada por Procesos Puntuales Determinantales
Diverse Video Generation with Determinantal Point Process-Guided Policy Optimization
November 25, 2025
Autores: Tahira Kazimi, Connor Dunlop, Pinar Yanardag
cs.AI
Resumen
Si bien los recientes modelos de difusión de texto a vídeo (T2V) han logrado una calidad y alineación con el texto impresionantes, a menudo producen resultados de baja diversidad al muestrear múltiples vídeos a partir de un mismo texto. Abordamos este desafío formulándolo como un problema de optimización de políticas a nivel de conjunto, con el objetivo de entrenar una política que pueda cubrir el amplio y diverso rango de resultados plausibles para un texto dado. Para ello, presentamos DPP-GRPO, un novedoso marco para la generación diversa de vídeos que combina las teorías de Procesos Puntuales Determinantales (DPP) y la Optimización de Políticas Relativas por Grupos (GRPO) para aplicar una recompensa explícita a las generaciones diversas. Nuestro objetivo convierte la diversidad en una señal explícita al imponer rendimientos decrecientes sobre muestras redundantes (mediante DPP) y al proporcionar retroalimentación grupal sobre conjuntos de candidatos (mediante GRPO). Nuestro marco es plug-and-play y agnóstico al modelo, y fomenta generaciones diversas en apariencia visual, movimientos de cámara y estructura de la escena sin sacrificar la fidelidad al texto o la calidad perceptual. Implementamos nuestro método en WAN y CogVideoX, y demostramos que mejora consistentemente la diversidad de vídeos en benchmarks de última generación como VBench, VideoScore y estudios de preferencia humana. Además, publicamos nuestro código y un nuevo conjunto de datos de evaluación con 30,000 textos diversos para apoyar futuras investigaciones.
English
While recent text-to-video (T2V) diffusion models have achieved impressive quality and prompt alignment, they often produce low-diversity outputs when sampling multiple videos from a single text prompt. We tackle this challenge by formulating it as a set-level policy optimization problem, with the goal of training a policy that can cover the diverse range of plausible outcomes for a given prompt. To address this, we introduce DPP-GRPO, a novel framework for diverse video generation that combines Determinantal Point Processes (DPPs) and Group Relative Policy Optimization (GRPO) theories to enforce explicit reward on diverse generations. Our objective turns diversity into an explicit signal by imposing diminishing returns on redundant samples (via DPP) while supplies groupwise feedback over candidate sets (via GRPO). Our framework is plug-and-play and model-agnostic, and encourages diverse generations across visual appearance, camera motions, and scene structure without sacrificing prompt fidelity or perceptual quality. We implement our method on WAN and CogVideoX, and show that our method consistently improves video diversity on state-of-the-art benchmarks such as VBench, VideoScore, and human preference studies. Moreover, we release our code and a new benchmark dataset of 30,000 diverse prompts to support future research.