DanceGRPO : Libérer le potentiel de GRPO pour la génération visuelle
DanceGRPO: Unleashing GRPO on Visual Generation
May 12, 2025
Auteurs: Zeyue Xue, Jie Wu, Yu Gao, Fangyuan Kong, Lingting Zhu, Mengzhao Chen, Zhiheng Liu, Wei Liu, Qiushan Guo, Weilin Huang, Ping Luo
cs.AI
Résumé
Les récentes avancées dans les modèles génératifs, en particulier les modèles de diffusion et les flux rectifiés, ont révolutionné la création de contenu visuel. Cependant, l'alignement des sorties de ces modèles avec les préférences humaines reste un défi majeur. Les méthodes existantes basées sur l'apprentissage par renforcement (RL) pour la génération visuelle rencontrent des limitations critiques : incompatibilité avec les paradigmes modernes d'échantillonnage basés sur les équations différentielles ordinaires (EDO), instabilité lors de l'entraînement à grande échelle, et manque de validation pour la génération vidéo. Ce papier présente DanceGRPO, le premier cadre unifié adaptant l'Optimisation de Politique Relative par Groupe (GRPO) aux paradigmes de génération visuelle, déployant un algorithme RL unifié à travers deux paradigmes génératifs (modèles de diffusion et flux rectifiés), trois tâches (texte-à-image, texte-à-vidéo, image-à-vidéo), quatre modèles de base (Stable Diffusion, HunyuanVideo, FLUX, SkyReel-I2V), et cinq modèles de récompense (esthétique image/vidéo, alignement texte-image, qualité du mouvement vidéo, et récompense binaire). À notre connaissance, DanceGRPO est le premier cadre unifié basé sur RL capable de s'adapter de manière fluide à divers paradigmes génératifs, tâches, modèles de base et modèles de récompense. DanceGRPO démontre des améliorations constantes et substantielles, surpassant les bases de référence jusqu'à 181 % sur des benchmarks tels que HPS-v2.1, CLIP Score, VideoAlign et GenEval. Notamment, DanceGRPO peut non seulement stabiliser l'optimisation de politique pour la génération vidéo complexe, mais aussi permettre à la politique générative de mieux capturer les trajectoires de débruitage pour le scaling d'inférence Best-of-N et d'apprendre à partir de retours binaires épars. Nos résultats établissent DanceGRPO comme une solution robuste et polyvalente pour l'échelle des tâches d'Apprentissage par Renforcement à partir des Retours Humains (RLHF) dans la génération visuelle, offrant de nouvelles perspectives sur l'harmonisation de l'apprentissage par renforcement et de la synthèse visuelle. Le code sera publié.
English
Recent breakthroughs in generative models-particularly diffusion models and
rectified flows-have revolutionized visual content creation, yet aligning model
outputs with human preferences remains a critical challenge. Existing
reinforcement learning (RL)-based methods for visual generation face critical
limitations: incompatibility with modern Ordinary Differential Equations
(ODEs)-based sampling paradigms, instability in large-scale training, and lack
of validation for video generation. This paper introduces DanceGRPO, the first
unified framework to adapt Group Relative Policy Optimization (GRPO) to visual
generation paradigms, unleashing one unified RL algorithm across two generative
paradigms (diffusion models and rectified flows), three tasks (text-to-image,
text-to-video, image-to-video), four foundation models (Stable Diffusion,
HunyuanVideo, FLUX, SkyReel-I2V), and five reward models (image/video
aesthetics, text-image alignment, video motion quality, and binary reward). To
our knowledge, DanceGRPO is the first RL-based unified framework capable of
seamless adaptation across diverse generative paradigms, tasks, foundational
models, and reward models. DanceGRPO demonstrates consistent and substantial
improvements, which outperform baselines by up to 181% on benchmarks such as
HPS-v2.1, CLIP Score, VideoAlign, and GenEval. Notably, DanceGRPO not only can
stabilize policy optimization for complex video generation, but also enables
generative policy to better capture denoising trajectories for Best-of-N
inference scaling and learn from sparse binary feedback. Our results establish
DanceGRPO as a robust and versatile solution for scaling Reinforcement Learning
from Human Feedback (RLHF) tasks in visual generation, offering new insights
into harmonizing reinforcement learning and visual synthesis. The code will be
released.Summary
AI-Generated Summary