DanceGRPO: GRPO ontketenen in visuele generatie
DanceGRPO: Unleashing GRPO on Visual Generation
May 12, 2025
Auteurs: Zeyue Xue, Jie Wu, Yu Gao, Fangyuan Kong, Lingting Zhu, Mengzhao Chen, Zhiheng Liu, Wei Liu, Qiushan Guo, Weilin Huang, Ping Luo
cs.AI
Samenvatting
Recente doorbraken in generatieve modellen—met name diffusiemodellen en
gerechtificeerde stromen—hebben een revolutie teweeggebracht in het creëren van visuele inhoud, maar het afstemmen van modeluitkomsten op menselijke voorkeuren blijft een kritieke uitdaging. Bestaande methoden voor visuele generatie op basis van reinforcement learning (RL) kampen met belangrijke beperkingen: incompatibiliteit met moderne samplingparadigma's gebaseerd op Ordinary Differential Equations (ODE's), instabiliteit bij grootschalige training, en een gebrek aan validatie voor videogeneratie. Dit artikel introduceert DanceGRPO, het eerste geïntegreerde framework dat Group Relative Policy Optimization (GRPO) aanpast aan visuele generatieparadigma's, waardoor één geïntegreerd RL-algoritme wordt vrijgegeven over twee generatieve paradigma's (diffusiemodellen en gerechtificeerde stromen), drie taken (tekst-naar-beeld, tekst-naar-video, beeld-naar-video), vier basis modellen (Stable Diffusion, HunyuanVideo, FLUX, SkyReel-I2V), en vijf beloningsmodellen (beeld/video-esthetiek, tekst-beeld-uitlijning, videobewegingskwaliteit, en binaire beloning). Voor zover wij weten, is DanceGRPO het eerste RL-gebaseerde geïntegreerde framework dat naadloos kan worden aangepast aan diverse generatieve paradigma's, taken, basis modellen, en beloningsmodellen. DanceGRPO toont consistente en aanzienlijke verbeteringen, die de referentiemodellen met tot wel 181% overtreffen op benchmarks zoals HPS-v2.1, CLIP Score, VideoAlign, en GenEval. Opmerkelijk is dat DanceGRPO niet alleen beleidsoptimalisatie kan stabiliseren voor complexe videogeneratie, maar ook het generatieve beleid in staat stelt om denoising-trajectories beter vast te leggen voor Best-of-N inferentieschaling en te leren van schaarse binaire feedback. Onze resultaten positioneren DanceGRPO als een robuuste en veelzijdige oplossing voor het schalen van Reinforcement Learning from Human Feedback (RLHF) taken in visuele generatie, en bieden nieuwe inzichten in het harmoniseren van reinforcement learning en visuele synthese. De code zal worden vrijgegeven.
English
Recent breakthroughs in generative models-particularly diffusion models and
rectified flows-have revolutionized visual content creation, yet aligning model
outputs with human preferences remains a critical challenge. Existing
reinforcement learning (RL)-based methods for visual generation face critical
limitations: incompatibility with modern Ordinary Differential Equations
(ODEs)-based sampling paradigms, instability in large-scale training, and lack
of validation for video generation. This paper introduces DanceGRPO, the first
unified framework to adapt Group Relative Policy Optimization (GRPO) to visual
generation paradigms, unleashing one unified RL algorithm across two generative
paradigms (diffusion models and rectified flows), three tasks (text-to-image,
text-to-video, image-to-video), four foundation models (Stable Diffusion,
HunyuanVideo, FLUX, SkyReel-I2V), and five reward models (image/video
aesthetics, text-image alignment, video motion quality, and binary reward). To
our knowledge, DanceGRPO is the first RL-based unified framework capable of
seamless adaptation across diverse generative paradigms, tasks, foundational
models, and reward models. DanceGRPO demonstrates consistent and substantial
improvements, which outperform baselines by up to 181% on benchmarks such as
HPS-v2.1, CLIP Score, VideoAlign, and GenEval. Notably, DanceGRPO not only can
stabilize policy optimization for complex video generation, but also enables
generative policy to better capture denoising trajectories for Best-of-N
inference scaling and learn from sparse binary feedback. Our results establish
DanceGRPO as a robust and versatile solution for scaling Reinforcement Learning
from Human Feedback (RLHF) tasks in visual generation, offering new insights
into harmonizing reinforcement learning and visual synthesis. The code will be
released.Summary
AI-Generated Summary