결정점 과정 기반 정책 최적화를 통한 다양한 비디오 생성
Diverse Video Generation with Determinantal Point Process-Guided Policy Optimization
November 25, 2025
저자: Tahira Kazimi, Connor Dunlop, Pinar Yanardag
cs.AI
초록
최근 텍스트-비디오(T2V) 확산 모델이 인상적인 품질과 프롬프트 정확도를 달성했지만, 단일 텍스트 프롬프트에서 여러 비디오를 샘플링할 때 낮은 다양성의 결과물을 생성하는 경우가 많습니다. 우리는 이 문제를 집합 수준의 정책 최적화 문제로 공식화하여 주어진 프롬프트에 대한 다양한 가능한 결과 범위를 포괄할 수 있는 정책을 학습하는 것을 목표로 이 과제에 접근합니다. 이를 해결하기 위해 우리는 다양한 비디오 생성을 위한 새로운 프레임워크인 DPP-GRPO를 소개합니다. 이 프레임워크는 Determinantal Point Processes(DPP)와 Group Relative Policy Optimization(GRPO) 이론을 결합하여 다양한 생성물에 명시적 보상을 부여합니다. 우리의 목적은 중복 샘플에 대해 체감 수익을 적용하고(DPP 통해) 후보 집합에 대해 그룹 단위 피드백을 제공함으로써(GRPO 통해) 다양성을 명시적 신호로 전환하는 것입니다. 우리의 프레임워크는 플러그 앤 플레이 방식이며 모델에 독립적이며, 프롬프트 정확도나 지각적 품질을 희생하지 않으면서 시각적 외관, 카메라 움직임, 장면 구조 전반에 걸쳐 다양한 생성을 촉진합니다. 우리는 이 방법을 WAN과 CogVideoX에 구현하고, VBench, VideoScore 및 인간 선호도 연구와 같은 최첨단 벤치마크에서 우리 방법이 비디오 다양성을 지속적으로 향상시킴을 보여줍니다. 더 나아가, 향후 연구를 지원하기 위해 우리의 코드와 30,000개의 다양한 프롬프트로 구성된 새로운 벤치마크 데이터셋을 공개합니다.
English
While recent text-to-video (T2V) diffusion models have achieved impressive quality and prompt alignment, they often produce low-diversity outputs when sampling multiple videos from a single text prompt. We tackle this challenge by formulating it as a set-level policy optimization problem, with the goal of training a policy that can cover the diverse range of plausible outcomes for a given prompt. To address this, we introduce DPP-GRPO, a novel framework for diverse video generation that combines Determinantal Point Processes (DPPs) and Group Relative Policy Optimization (GRPO) theories to enforce explicit reward on diverse generations. Our objective turns diversity into an explicit signal by imposing diminishing returns on redundant samples (via DPP) while supplies groupwise feedback over candidate sets (via GRPO). Our framework is plug-and-play and model-agnostic, and encourages diverse generations across visual appearance, camera motions, and scene structure without sacrificing prompt fidelity or perceptual quality. We implement our method on WAN and CogVideoX, and show that our method consistently improves video diversity on state-of-the-art benchmarks such as VBench, VideoScore, and human preference studies. Moreover, we release our code and a new benchmark dataset of 30,000 diverse prompts to support future research.