DanceGRPO: Liberando el potencial de GRPO en la generación visual
DanceGRPO: Unleashing GRPO on Visual Generation
May 12, 2025
Autores: Zeyue Xue, Jie Wu, Yu Gao, Fangyuan Kong, Lingting Zhu, Mengzhao Chen, Zhiheng Liu, Wei Liu, Qiushan Guo, Weilin Huang, Ping Luo
cs.AI
Resumen
Los recientes avances en modelos generativos, particularmente en modelos de difusión y flujos rectificados, han revolucionado la creación de contenido visual, aunque alinear las salidas de los modelos con las preferencias humanas sigue siendo un desafío crítico. Los métodos existentes basados en aprendizaje por refuerzo (RL) para la generación visual enfrentan limitaciones importantes: incompatibilidad con los paradigmas modernos de muestreo basados en Ecuaciones Diferenciales Ordinarias (ODEs), inestabilidad en el entrenamiento a gran escala y falta de validación para la generación de videos. Este artículo presenta DanceGRPO, el primer marco unificado que adapta la Optimización de Políticas Relativas de Grupo (GRPO) a los paradigmas de generación visual, desplegando un único algoritmo de RL en dos paradigmas generativos (modelos de difusión y flujos rectificados), tres tareas (texto a imagen, texto a video, imagen a video), cuatro modelos base (Stable Diffusion, HunyuanVideo, FLUX, SkyReel-I2V) y cinco modelos de recompensa (estética de imagen/video, alineación texto-imagen, calidad de movimiento en video y recompensa binaria). Hasta donde sabemos, DanceGRPO es el primer marco unificado basado en RL capaz de adaptarse sin problemas entre diversos paradigmas generativos, tareas, modelos base y modelos de recompensa. DanceGRPO demuestra mejoras consistentes y sustanciales, superando a los baselines hasta en un 181% en benchmarks como HPS-v2.1, CLIP Score, VideoAlign y GenEval. Notablemente, DanceGRPO no solo puede estabilizar la optimización de políticas para la generación compleja de videos, sino que también permite que la política generativa capture mejor las trayectorias de eliminación de ruido para la escalabilidad de inferencia Best-of-N y aprenda de retroalimentación binaria dispersa. Nuestros resultados establecen a DanceGRPO como una solución robusta y versátil para escalar tareas de Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) en la generación visual, ofreciendo nuevas perspectivas sobre la armonización entre el aprendizaje por refuerzo y la síntesis visual. El código será liberado.
English
Recent breakthroughs in generative models-particularly diffusion models and
rectified flows-have revolutionized visual content creation, yet aligning model
outputs with human preferences remains a critical challenge. Existing
reinforcement learning (RL)-based methods for visual generation face critical
limitations: incompatibility with modern Ordinary Differential Equations
(ODEs)-based sampling paradigms, instability in large-scale training, and lack
of validation for video generation. This paper introduces DanceGRPO, the first
unified framework to adapt Group Relative Policy Optimization (GRPO) to visual
generation paradigms, unleashing one unified RL algorithm across two generative
paradigms (diffusion models and rectified flows), three tasks (text-to-image,
text-to-video, image-to-video), four foundation models (Stable Diffusion,
HunyuanVideo, FLUX, SkyReel-I2V), and five reward models (image/video
aesthetics, text-image alignment, video motion quality, and binary reward). To
our knowledge, DanceGRPO is the first RL-based unified framework capable of
seamless adaptation across diverse generative paradigms, tasks, foundational
models, and reward models. DanceGRPO demonstrates consistent and substantial
improvements, which outperform baselines by up to 181% on benchmarks such as
HPS-v2.1, CLIP Score, VideoAlign, and GenEval. Notably, DanceGRPO not only can
stabilize policy optimization for complex video generation, but also enables
generative policy to better capture denoising trajectories for Best-of-N
inference scaling and learn from sparse binary feedback. Our results establish
DanceGRPO as a robust and versatile solution for scaling Reinforcement Learning
from Human Feedback (RLHF) tasks in visual generation, offering new insights
into harmonizing reinforcement learning and visual synthesis. The code will be
released.Summary
AI-Generated Summary