ChatPaper.aiChatPaper

DanceGRPO: Aplicando GRPO na Geração Visual

DanceGRPO: Unleashing GRPO on Visual Generation

May 12, 2025
Autores: Zeyue Xue, Jie Wu, Yu Gao, Fangyuan Kong, Lingting Zhu, Mengzhao Chen, Zhiheng Liu, Wei Liu, Qiushan Guo, Weilin Huang, Ping Luo
cs.AI

Resumo

Os recentes avanços em modelos generativos - particularmente modelos de difusão e fluxos retificados - revolucionaram a criação de conteúdo visual, mas alinhar as saídas dos modelos com as preferências humanas continua sendo um desafio crítico. Os métodos existentes baseados em aprendizado por reforço (RL) para geração visual enfrentam limitações importantes: incompatibilidade com os paradigmas modernos de amostragem baseados em Equações Diferenciais Ordinárias (ODEs), instabilidade em treinamentos em larga escala e falta de validação para geração de vídeos. Este artigo apresenta o DanceGRPO, o primeiro framework unificado para adaptar a Otimização de Política Relativa de Grupo (GRPO) a paradigmas de geração visual, liberando um algoritmo de RL unificado em dois paradigmas generativos (modelos de difusão e fluxos retificados), três tarefas (texto para imagem, texto para vídeo, imagem para vídeo), quatro modelos fundamentais (Stable Diffusion, HunyuanVideo, FLUX, SkyReel-I2V) e cinco modelos de recompensa (estética de imagem/vídeo, alinhamento texto-imagem, qualidade de movimento de vídeo e recompensa binária). Até onde sabemos, o DanceGRPO é o primeiro framework unificado baseado em RL capaz de se adaptar de forma contínua a diversos paradigmas generativos, tarefas, modelos fundamentais e modelos de recompensa. O DanceGRPO demonstra melhorias consistentes e substanciais, superando as linhas de base em até 181% em benchmarks como HPS-v2.1, CLIP Score, VideoAlign e GenEval. Notavelmente, o DanceGRPO não apenas pode estabilizar a otimização de políticas para geração complexa de vídeos, mas também permite que a política generativa capture melhor as trajetórias de remoção de ruído para escalonamento de inferência Best-of-N e aprenda com feedback binário esparso. Nossos resultados estabelecem o DanceGRPO como uma solução robusta e versátil para escalar tarefas de Aprendizado por Reforço com Feedback Humano (RLHF) em geração visual, oferecendo novos insights sobre a harmonização entre aprendizado por reforço e síntese visual. O código será liberado.
English
Recent breakthroughs in generative models-particularly diffusion models and rectified flows-have revolutionized visual content creation, yet aligning model outputs with human preferences remains a critical challenge. Existing reinforcement learning (RL)-based methods for visual generation face critical limitations: incompatibility with modern Ordinary Differential Equations (ODEs)-based sampling paradigms, instability in large-scale training, and lack of validation for video generation. This paper introduces DanceGRPO, the first unified framework to adapt Group Relative Policy Optimization (GRPO) to visual generation paradigms, unleashing one unified RL algorithm across two generative paradigms (diffusion models and rectified flows), three tasks (text-to-image, text-to-video, image-to-video), four foundation models (Stable Diffusion, HunyuanVideo, FLUX, SkyReel-I2V), and five reward models (image/video aesthetics, text-image alignment, video motion quality, and binary reward). To our knowledge, DanceGRPO is the first RL-based unified framework capable of seamless adaptation across diverse generative paradigms, tasks, foundational models, and reward models. DanceGRPO demonstrates consistent and substantial improvements, which outperform baselines by up to 181% on benchmarks such as HPS-v2.1, CLIP Score, VideoAlign, and GenEval. Notably, DanceGRPO not only can stabilize policy optimization for complex video generation, but also enables generative policy to better capture denoising trajectories for Best-of-N inference scaling and learn from sparse binary feedback. Our results establish DanceGRPO as a robust and versatile solution for scaling Reinforcement Learning from Human Feedback (RLHF) tasks in visual generation, offering new insights into harmonizing reinforcement learning and visual synthesis. The code will be released.
PDF323February 8, 2026