DanceGRPO: Применение GRPO для задач визуальной генерации
DanceGRPO: Unleashing GRPO on Visual Generation
May 12, 2025
Авторы: Zeyue Xue, Jie Wu, Yu Gao, Fangyuan Kong, Lingting Zhu, Mengzhao Chen, Zhiheng Liu, Wei Liu, Qiushan Guo, Weilin Huang, Ping Luo
cs.AI
Аннотация
Недавние прорывы в области генеративных моделей, в частности диффузионных моделей и исправленных потоков, произвели революцию в создании визуального контента, однако согласование выходных данных моделей с предпочтениями человека остается важной задачей. Существующие методы визуальной генерации, основанные на обучении с подкреплением (RL), сталкиваются с серьезными ограничениями: несовместимостью с современными парадигмами выборки на основе обыкновенных дифференциальных уравнений (ODE), нестабильностью при обучении в крупных масштабах и отсутствием проверки для генерации видео. В данной статье представлен DanceGRPO — первый унифицированный фреймворк, адаптирующий метод оптимизации групповой относительной политики (GRPO) к парадигмам визуальной генерации, что позволяет использовать единый алгоритм RL для двух генеративных парадигм (диффузионные модели и исправленные потоки), трех задач (текст-в-изображение, текст-в-видео, изображение-в-видео), четырех базовых моделей (Stable Diffusion, HunyuanVideo, FLUX, SkyReel-I2V) и пяти моделей вознаграждения (эстетика изображения/видео, соответствие текста и изображения, качество движения видео и бинарное вознаграждение). Насколько нам известно, DanceGRPO является первым унифицированным фреймворком на основе RL, способным к бесшовной адаптации для различных генеративных парадигм, задач, базовых моделей и моделей вознаграждения. DanceGRPO демонстрирует стабильные и значительные улучшения, превосходя базовые методы до 181% на таких бенчмарках, как HPS-v2.1, CLIP Score, VideoAlign и GenEval. Примечательно, что DanceGRPO не только стабилизирует оптимизацию политики для сложной генерации видео, но и позволяет генеративной политике лучше захватывать траектории удаления шума для масштабирования вывода Best-of-N и обучаться на основе редких бинарных отзывов. Наши результаты подтверждают, что DanceGRPO является надежным и универсальным решением для масштабирования задач обучения с подкреплением на основе человеческих отзывов (RLHF) в визуальной генерации, предлагая новые идеи для гармонизации обучения с подкреплением и визуального синтеза. Код будет опубликован.
English
Recent breakthroughs in generative models-particularly diffusion models and
rectified flows-have revolutionized visual content creation, yet aligning model
outputs with human preferences remains a critical challenge. Existing
reinforcement learning (RL)-based methods for visual generation face critical
limitations: incompatibility with modern Ordinary Differential Equations
(ODEs)-based sampling paradigms, instability in large-scale training, and lack
of validation for video generation. This paper introduces DanceGRPO, the first
unified framework to adapt Group Relative Policy Optimization (GRPO) to visual
generation paradigms, unleashing one unified RL algorithm across two generative
paradigms (diffusion models and rectified flows), three tasks (text-to-image,
text-to-video, image-to-video), four foundation models (Stable Diffusion,
HunyuanVideo, FLUX, SkyReel-I2V), and five reward models (image/video
aesthetics, text-image alignment, video motion quality, and binary reward). To
our knowledge, DanceGRPO is the first RL-based unified framework capable of
seamless adaptation across diverse generative paradigms, tasks, foundational
models, and reward models. DanceGRPO demonstrates consistent and substantial
improvements, which outperform baselines by up to 181% on benchmarks such as
HPS-v2.1, CLIP Score, VideoAlign, and GenEval. Notably, DanceGRPO not only can
stabilize policy optimization for complex video generation, but also enables
generative policy to better capture denoising trajectories for Best-of-N
inference scaling and learn from sparse binary feedback. Our results establish
DanceGRPO as a robust and versatile solution for scaling Reinforcement Learning
from Human Feedback (RLHF) tasks in visual generation, offering new insights
into harmonizing reinforcement learning and visual synthesis. The code will be
released.Summary
AI-Generated Summary