ChatPaper.aiChatPaper

DanceGRPO: Sfruttare GRPO per la generazione visiva

DanceGRPO: Unleashing GRPO on Visual Generation

May 12, 2025
Autori: Zeyue Xue, Jie Wu, Yu Gao, Fangyuan Kong, Lingting Zhu, Mengzhao Chen, Zhiheng Liu, Wei Liu, Qiushan Guo, Weilin Huang, Ping Luo
cs.AI

Abstract

I recenti progressi nei modelli generativi, in particolare i modelli di diffusione e i flussi rettificati, hanno rivoluzionato la creazione di contenuti visivi, ma allineare gli output dei modelli alle preferenze umane rimane una sfida cruciale. I metodi esistenti basati sull'apprendimento per rinforzo (RL) per la generazione visiva affrontano limitazioni critiche: incompatibilità con i moderni paradigmi di campionamento basati su equazioni differenziali ordinarie (ODE), instabilità nell'addestramento su larga scala e mancanza di validazione per la generazione video. Questo articolo introduce DanceGRPO, il primo framework unificato per adattare l'ottimizzazione delle politiche relative ai gruppi (GRPO) ai paradigmi di generazione visiva, sfruttando un unico algoritmo RL attraverso due paradigmi generativi (modelli di diffusione e flussi rettificati), tre task (da testo a immagine, da testo a video, da immagine a video), quattro modelli di base (Stable Diffusion, HunyuanVideo, FLUX, SkyReel-I2V) e cinque modelli di reward (estetica di immagini/video, allineamento testo-immagine, qualità del movimento video e reward binario). A nostra conoscenza, DanceGRPO è il primo framework unificato basato su RL in grado di adattarsi senza soluzione di continuità a diversi paradigmi generativi, task, modelli di base e modelli di reward. DanceGRPO dimostra miglioramenti consistenti e sostanziali, superando i baseline fino al 181% su benchmark come HPS-v2.1, CLIP Score, VideoAlign e GenEval. In particolare, DanceGRPO non solo può stabilizzare l'ottimizzazione delle politiche per la generazione video complessa, ma consente anche alla politica generativa di catturare meglio le traiettorie di denoising per il ridimensionamento dell'inferenza Best-of-N e di apprendere da feedback binari sparsi. I nostri risultati stabiliscono DanceGRPO come una soluzione robusta e versatile per scalare i task di Reinforcement Learning from Human Feedback (RLHF) nella generazione visiva, offrendo nuove intuizioni sull'armonizzazione dell'apprendimento per rinforzo e della sintesi visiva. Il codice verrà rilasciato.
English
Recent breakthroughs in generative models-particularly diffusion models and rectified flows-have revolutionized visual content creation, yet aligning model outputs with human preferences remains a critical challenge. Existing reinforcement learning (RL)-based methods for visual generation face critical limitations: incompatibility with modern Ordinary Differential Equations (ODEs)-based sampling paradigms, instability in large-scale training, and lack of validation for video generation. This paper introduces DanceGRPO, the first unified framework to adapt Group Relative Policy Optimization (GRPO) to visual generation paradigms, unleashing one unified RL algorithm across two generative paradigms (diffusion models and rectified flows), three tasks (text-to-image, text-to-video, image-to-video), four foundation models (Stable Diffusion, HunyuanVideo, FLUX, SkyReel-I2V), and five reward models (image/video aesthetics, text-image alignment, video motion quality, and binary reward). To our knowledge, DanceGRPO is the first RL-based unified framework capable of seamless adaptation across diverse generative paradigms, tasks, foundational models, and reward models. DanceGRPO demonstrates consistent and substantial improvements, which outperform baselines by up to 181% on benchmarks such as HPS-v2.1, CLIP Score, VideoAlign, and GenEval. Notably, DanceGRPO not only can stabilize policy optimization for complex video generation, but also enables generative policy to better capture denoising trajectories for Best-of-N inference scaling and learn from sparse binary feedback. Our results establish DanceGRPO as a robust and versatile solution for scaling Reinforcement Learning from Human Feedback (RLHF) tasks in visual generation, offering new insights into harmonizing reinforcement learning and visual synthesis. The code will be released.
PDF313May 13, 2025