ChatPaper.aiChatPaper

DanceGRPO: 시각적 생성에 GRPO를 적용하다

DanceGRPO: Unleashing GRPO on Visual Generation

May 12, 2025
저자: Zeyue Xue, Jie Wu, Yu Gao, Fangyuan Kong, Lingting Zhu, Mengzhao Chen, Zhiheng Liu, Wei Liu, Qiushan Guo, Weilin Huang, Ping Luo
cs.AI

초록

최근 생성 모델, 특히 확산 모델(diffusion models)과 정류 흐름(rectified flows)의 획기적인 발전으로 시각적 콘텐츠 생성이 혁신되었지만, 모델 출력을 인간의 선호도와 일치시키는 것은 여전히 중요한 과제로 남아 있습니다. 기존의 강화 학습(RL) 기반 시각적 생성 방법들은 현대적인 상미분 방정식(ODEs) 기반 샘플링 패러다임과의 비호환성, 대규모 훈련에서의 불안정성, 그리고 비디오 생성에 대한 검증 부족 등의 심각한 한계를 가지고 있습니다. 본 논문은 DanceGRPO를 소개하며, 이는 Group Relative Policy Optimization(GRPO)을 시각적 생성 패러다임에 적용한 최초의 통합 프레임워크로, 두 가지 생성 패러다임(확산 모델과 정류 흐름), 세 가지 작업(텍스트-이미지, 텍스트-비디오, 이미지-비디오), 네 가지 기반 모델(Stable Diffusion, HunyuanVideo, FLUX, SkyReel-I2V), 그리고 다섯 가지 보상 모델(이미지/비디오 미학, 텍스트-이미지 정렬, 비디오 모션 품질, 이진 보상)에 걸쳐 하나의 통합 RL 알고리즘을 적용합니다. 우리가 아는 한, DanceGRPO는 다양한 생성 패러다임, 작업, 기반 모델, 그리고 보상 모델에 걸쳐 원활하게 적응할 수 있는 최초의 RL 기반 통합 프레임워크입니다. DanceGRPO는 HPS-v2.1, CLIP Score, VideoAlign, GenEval과 같은 벤치마크에서 기준선을 최대 181%까지 능가하는 일관적이고 상당한 개선을 보여줍니다. 특히, DanceGRPO는 복잡한 비디오 생성을 위한 정책 최적화를 안정화할 뿐만 아니라, Best-of-N 추론 스케일링을 위한 노이즈 제거 궤적을 더 잘 포착하고 희소한 이진 피드백으로부터 학습할 수 있도록 생성 정책을 가능하게 합니다. 우리의 결과는 DanceGRPO가 시각적 생성에서 인간 피드백 기반 강화 학습(RLHF) 작업을 확장하기 위한 견고하고 다재다능한 솔루션임을 입증하며, 강화 학습과 시각적 합성을 조화롭게 하는 데 새로운 통찰을 제공합니다. 코드는 공개될 예정입니다.
English
Recent breakthroughs in generative models-particularly diffusion models and rectified flows-have revolutionized visual content creation, yet aligning model outputs with human preferences remains a critical challenge. Existing reinforcement learning (RL)-based methods for visual generation face critical limitations: incompatibility with modern Ordinary Differential Equations (ODEs)-based sampling paradigms, instability in large-scale training, and lack of validation for video generation. This paper introduces DanceGRPO, the first unified framework to adapt Group Relative Policy Optimization (GRPO) to visual generation paradigms, unleashing one unified RL algorithm across two generative paradigms (diffusion models and rectified flows), three tasks (text-to-image, text-to-video, image-to-video), four foundation models (Stable Diffusion, HunyuanVideo, FLUX, SkyReel-I2V), and five reward models (image/video aesthetics, text-image alignment, video motion quality, and binary reward). To our knowledge, DanceGRPO is the first RL-based unified framework capable of seamless adaptation across diverse generative paradigms, tasks, foundational models, and reward models. DanceGRPO demonstrates consistent and substantial improvements, which outperform baselines by up to 181% on benchmarks such as HPS-v2.1, CLIP Score, VideoAlign, and GenEval. Notably, DanceGRPO not only can stabilize policy optimization for complex video generation, but also enables generative policy to better capture denoising trajectories for Best-of-N inference scaling and learn from sparse binary feedback. Our results establish DanceGRPO as a robust and versatile solution for scaling Reinforcement Learning from Human Feedback (RLHF) tasks in visual generation, offering new insights into harmonizing reinforcement learning and visual synthesis. The code will be released.

Summary

AI-Generated Summary

PDF162May 13, 2025