DanceGRPO: Freisetzung von GRPO für die visuelle Generierung
DanceGRPO: Unleashing GRPO on Visual Generation
May 12, 2025
Autoren: Zeyue Xue, Jie Wu, Yu Gao, Fangyuan Kong, Lingting Zhu, Mengzhao Chen, Zhiheng Liu, Wei Liu, Qiushan Guo, Weilin Huang, Ping Luo
cs.AI
Zusammenfassung
Jüngste Durchbrüche bei generativen Modellen – insbesondere Diffusionsmodelle und
korrigierte Flüsse – haben die Erstellung visueller Inhalte revolutioniert, doch die
Ausrichtung der Modellausgaben auf menschliche Präferenzen bleibt eine zentrale
Herausforderung. Bestehende, auf Reinforcement Learning (RL) basierende Methoden
für die visuelle Generierung stoßen auf kritische Grenzen: Inkompatibilität mit
modernen, auf gewöhnlichen Differentialgleichungen (ODEs) basierenden
Sampling-Paradigmen, Instabilität beim Training in großem Maßstab und fehlende
Validierung für die Videogenerierung. Dieses Paper stellt DanceGRPO vor, den ersten
vereinheitlichten Rahmen, der Group Relative Policy Optimization (GRPO) an
visuelle Generierungsparadigmen anpasst und damit einen einheitlichen RL-Algorithmus
über zwei generative Paradigmen (Diffusionsmodelle und korrigierte Flüsse), drei
Aufgaben (Text-zu-Bild, Text-zu-Video, Bild-zu-Video), vier Basismodelle (Stable
Diffusion, HunyuanVideo, FLUX, SkyReel-I2V) und fünf Belohnungsmodelle (Bild-/Videoästhetik,
Text-Bild-Ausrichtung, Videobewegungsqualität und binäre Belohnung) ermöglicht. Nach
unserem Wissen ist DanceGRPO der erste RL-basierte, vereinheitlichte Rahmen, der
nahtlose Anpassungen über diverse generative Paradigmen, Aufgaben, Basismodelle und
Belohnungsmodelle hinweg ermöglicht. DanceGRPO zeigt konsistente und erhebliche
Verbesserungen, die die Baselines auf Benchmarks wie HPS-v2.1, CLIP Score,
VideoAlign und GenEval um bis zu 181 % übertreffen. Bemerkenswerterweise kann
DanceGRPO nicht nur die Policy-Optimierung für komplexe Videogenerierung stabilisieren,
sondern ermöglicht es auch der generativen Policy, Denoising-Trajektorien besser zu
erfassen, um Best-of-N-Inferenzskalierung zu ermöglichen, und aus spärlichem binärem
Feedback zu lernen. Unsere Ergebnisse etablieren DanceGRPO als robuste und vielseitige
Lösung für die Skalierung von Reinforcement Learning from Human Feedback (RLHF)
Aufgaben in der visuellen Generierung und bieten neue Einblicke in die Harmonisierung
von Reinforcement Learning und visueller Synthese. Der Code wird veröffentlicht.
English
Recent breakthroughs in generative models-particularly diffusion models and
rectified flows-have revolutionized visual content creation, yet aligning model
outputs with human preferences remains a critical challenge. Existing
reinforcement learning (RL)-based methods for visual generation face critical
limitations: incompatibility with modern Ordinary Differential Equations
(ODEs)-based sampling paradigms, instability in large-scale training, and lack
of validation for video generation. This paper introduces DanceGRPO, the first
unified framework to adapt Group Relative Policy Optimization (GRPO) to visual
generation paradigms, unleashing one unified RL algorithm across two generative
paradigms (diffusion models and rectified flows), three tasks (text-to-image,
text-to-video, image-to-video), four foundation models (Stable Diffusion,
HunyuanVideo, FLUX, SkyReel-I2V), and five reward models (image/video
aesthetics, text-image alignment, video motion quality, and binary reward). To
our knowledge, DanceGRPO is the first RL-based unified framework capable of
seamless adaptation across diverse generative paradigms, tasks, foundational
models, and reward models. DanceGRPO demonstrates consistent and substantial
improvements, which outperform baselines by up to 181% on benchmarks such as
HPS-v2.1, CLIP Score, VideoAlign, and GenEval. Notably, DanceGRPO not only can
stabilize policy optimization for complex video generation, but also enables
generative policy to better capture denoising trajectories for Best-of-N
inference scaling and learn from sparse binary feedback. Our results establish
DanceGRPO as a robust and versatile solution for scaling Reinforcement Learning
from Human Feedback (RLHF) tasks in visual generation, offering new insights
into harmonizing reinforcement learning and visual synthesis. The code will be
released.Summary
AI-Generated Summary