Geração Diversificada de Vídeos com Otimização de Políticas Guiada por Processos Pontuais Determinantais

Resumo

Embora os recentes modelos de difusão texto-para-vídeo (T2V) tenham alcançado qualidade e alinhamento impressionantes com os prompts, eles frequentemente produzem resultados de baixa diversidade ao amostrar múltiplos vídeos a partir de um único prompt de texto. Enfrentamos este desafio formulando-o como um problema de otimização de política em nível de conjunto, com o objetivo de treinar uma política que possa abranger a ampla gama de resultados plausíveis para um determinado prompt. Para resolver isso, introduzimos o DPP-GRPO, uma estrutura nova para geração diversificada de vídeos que combina as teorias dos Processos Pontuais Determinantais (DPPs) e da Otimização de Política Relativa em Grupo (GRPO) para impor uma recompensa explícita em gerações diversas. Nossa abordagem transforma a diversidade em um sinal explícito ao impor retornos decrescentes em amostras redundantes (via DPP) enquanto fornece feedback em grupo sobre conjuntos de candidatos (via GRPO). Nossa estrutura é plug-and-play e agnóstica ao modelo, e incentiva gerações diversas em aparência visual, movimentos de câmera e estrutura de cena sem sacrificar a fidelidade ao prompt ou a qualidade perceptual. Implementamos nosso método no WAN e no CogVideoX, e demonstramos que ele melhora consistentemente a diversidade dos vídeos em benchmarks state-of-the-art, como VBench, VideoScore e estudos de preferência humana. Além disso, disponibilizamos nosso código e um novo conjunto de dados de benchmark com 30.000 prompts diversos para apoiar pesquisas futuras.

English

While recent text-to-video (T2V) diffusion models have achieved impressive quality and prompt alignment, they often produce low-diversity outputs when sampling multiple videos from a single text prompt. We tackle this challenge by formulating it as a set-level policy optimization problem, with the goal of training a policy that can cover the diverse range of plausible outcomes for a given prompt. To address this, we introduce DPP-GRPO, a novel framework for diverse video generation that combines Determinantal Point Processes (DPPs) and Group Relative Policy Optimization (GRPO) theories to enforce explicit reward on diverse generations. Our objective turns diversity into an explicit signal by imposing diminishing returns on redundant samples (via DPP) while supplies groupwise feedback over candidate sets (via GRPO). Our framework is plug-and-play and model-agnostic, and encourages diverse generations across visual appearance, camera motions, and scene structure without sacrificing prompt fidelity or perceptual quality. We implement our method on WAN and CogVideoX, and show that our method consistently improves video diversity on state-of-the-art benchmarks such as VBench, VideoScore, and human preference studies. Moreover, we release our code and a new benchmark dataset of 30,000 diverse prompts to support future research.