ChatPaper.aiChatPaper

DanceGRPO: Freisetzung von GRPO für die visuelle Generierung

DanceGRPO: Unleashing GRPO on Visual Generation

May 12, 2025
Autoren: Zeyue Xue, Jie Wu, Yu Gao, Fangyuan Kong, Lingting Zhu, Mengzhao Chen, Zhiheng Liu, Wei Liu, Qiushan Guo, Weilin Huang, Ping Luo
cs.AI

Zusammenfassung

Jüngste Durchbrüche bei generativen Modellen – insbesondere Diffusionsmodelle und korrigierte Flüsse – haben die Erstellung visueller Inhalte revolutioniert, doch die Ausrichtung der Modellausgaben auf menschliche Präferenzen bleibt eine zentrale Herausforderung. Bestehende, auf Reinforcement Learning (RL) basierende Methoden für die visuelle Generierung stoßen auf kritische Grenzen: Inkompatibilität mit modernen, auf gewöhnlichen Differentialgleichungen (ODEs) basierenden Sampling-Paradigmen, Instabilität beim Training in großem Maßstab und fehlende Validierung für die Videogenerierung. Dieses Paper stellt DanceGRPO vor, den ersten vereinheitlichten Rahmen, der Group Relative Policy Optimization (GRPO) an visuelle Generierungsparadigmen anpasst und damit einen einheitlichen RL-Algorithmus über zwei generative Paradigmen (Diffusionsmodelle und korrigierte Flüsse), drei Aufgaben (Text-zu-Bild, Text-zu-Video, Bild-zu-Video), vier Basismodelle (Stable Diffusion, HunyuanVideo, FLUX, SkyReel-I2V) und fünf Belohnungsmodelle (Bild-/Videoästhetik, Text-Bild-Ausrichtung, Videobewegungsqualität und binäre Belohnung) ermöglicht. Nach unserem Wissen ist DanceGRPO der erste RL-basierte, vereinheitlichte Rahmen, der nahtlose Anpassungen über diverse generative Paradigmen, Aufgaben, Basismodelle und Belohnungsmodelle hinweg ermöglicht. DanceGRPO zeigt konsistente und erhebliche Verbesserungen, die die Baselines auf Benchmarks wie HPS-v2.1, CLIP Score, VideoAlign und GenEval um bis zu 181 % übertreffen. Bemerkenswerterweise kann DanceGRPO nicht nur die Policy-Optimierung für komplexe Videogenerierung stabilisieren, sondern ermöglicht es auch der generativen Policy, Denoising-Trajektorien besser zu erfassen, um Best-of-N-Inferenzskalierung zu ermöglichen, und aus spärlichem binärem Feedback zu lernen. Unsere Ergebnisse etablieren DanceGRPO als robuste und vielseitige Lösung für die Skalierung von Reinforcement Learning from Human Feedback (RLHF) Aufgaben in der visuellen Generierung und bieten neue Einblicke in die Harmonisierung von Reinforcement Learning und visueller Synthese. Der Code wird veröffentlicht.
English
Recent breakthroughs in generative models-particularly diffusion models and rectified flows-have revolutionized visual content creation, yet aligning model outputs with human preferences remains a critical challenge. Existing reinforcement learning (RL)-based methods for visual generation face critical limitations: incompatibility with modern Ordinary Differential Equations (ODEs)-based sampling paradigms, instability in large-scale training, and lack of validation for video generation. This paper introduces DanceGRPO, the first unified framework to adapt Group Relative Policy Optimization (GRPO) to visual generation paradigms, unleashing one unified RL algorithm across two generative paradigms (diffusion models and rectified flows), three tasks (text-to-image, text-to-video, image-to-video), four foundation models (Stable Diffusion, HunyuanVideo, FLUX, SkyReel-I2V), and five reward models (image/video aesthetics, text-image alignment, video motion quality, and binary reward). To our knowledge, DanceGRPO is the first RL-based unified framework capable of seamless adaptation across diverse generative paradigms, tasks, foundational models, and reward models. DanceGRPO demonstrates consistent and substantial improvements, which outperform baselines by up to 181% on benchmarks such as HPS-v2.1, CLIP Score, VideoAlign, and GenEval. Notably, DanceGRPO not only can stabilize policy optimization for complex video generation, but also enables generative policy to better capture denoising trajectories for Best-of-N inference scaling and learn from sparse binary feedback. Our results establish DanceGRPO as a robust and versatile solution for scaling Reinforcement Learning from Human Feedback (RLHF) tasks in visual generation, offering new insights into harmonizing reinforcement learning and visual synthesis. The code will be released.

Summary

AI-Generated Summary

PDF172May 13, 2025