ChatPaper.aiChatPaper

Flow-GRPO: Обучение моделей Flow Matching с использованием онлайн-обучения с подкреплением

Flow-GRPO: Training Flow Matching Models via Online RL

May 8, 2025
Авторы: Jie Liu, Gongye Liu, Jiajun Liang, Yangguang Li, Jiaheng Liu, Xintao Wang, Pengfei Wan, Di Zhang, Wanli Ouyang
cs.AI

Аннотация

Мы представляем Flow-GRPO — первый метод, интегрирующий онлайн-обучение с подкреплением (RL) в модели потокового согласования. Наш подход использует две ключевые стратегии: (1) преобразование ODE в SDE, которое превращает детерминированное обыкновенное дифференциальное уравнение (ODE) в эквивалентное стохастическое дифференциальное уравнение (SDE), сохраняющее маргинальное распределение исходной модели на всех временных шагах, что позволяет проводить статистическую выборку для исследования в RL; и (2) стратегию сокращения шума, которая уменьшает количество шагов удаления шума при обучении, сохраняя при этом исходное количество шагов вывода, что значительно повышает эффективность выборки без ухудшения производительности. Эмпирически Flow-GRPO демонстрирует эффективность в различных задачах генерации изображений из текста. Для сложных композиций модель SD3.5, настроенная с помощью RL, генерирует почти идеальное количество объектов, пространственные отношения и детализированные атрибуты, повышая точность GenEval с 63% до 95%. В визуализации текста точность улучшается с 59% до 92%, что значительно повышает качество генерации текста. Flow-GRPO также достигает существенного прогресса в согласовании с человеческими предпочтениями. Примечательно, что практически не наблюдалось "взлома наград", то есть увеличение наград не происходило за счет снижения качества или разнообразия изображений, и оба параметра оставались стабильными в наших экспериментах.
English
We propose Flow-GRPO, the first method integrating online reinforcement learning (RL) into flow matching models. Our approach uses two key strategies: (1) an ODE-to-SDE conversion that transforms a deterministic Ordinary Differential Equation (ODE) into an equivalent Stochastic Differential Equation (SDE) that matches the original model's marginal distribution at all timesteps, enabling statistical sampling for RL exploration; and (2) a Denoising Reduction strategy that reduces training denoising steps while retaining the original inference timestep number, significantly improving sampling efficiency without performance degradation. Empirically, Flow-GRPO is effective across multiple text-to-image tasks. For complex compositions, RL-tuned SD3.5 generates nearly perfect object counts, spatial relations, and fine-grained attributes, boosting GenEval accuracy from 63% to 95%. In visual text rendering, its accuracy improves from 59% to 92%, significantly enhancing text generation. Flow-GRPO also achieves substantial gains in human preference alignment. Notably, little to no reward hacking occurred, meaning rewards did not increase at the cost of image quality or diversity, and both remained stable in our experiments.

Summary

AI-Generated Summary

PDF362May 9, 2025