ChatPaper.aiChatPaper

Flow-GRPO: 온라인 강화 학습을 통한 플로우 매칭 모델 학습

Flow-GRPO: Training Flow Matching Models via Online RL

May 8, 2025
저자: Jie Liu, Gongye Liu, Jiajun Liang, Yangguang Li, Jiaheng Liu, Xintao Wang, Pengfei Wan, Di Zhang, Wanli Ouyang
cs.AI

초록

우리는 플로우 매칭 모델에 온라인 강화 학습(RL)을 통합한 최초의 방법인 Flow-GRPO를 제안한다. 우리의 접근 방식은 두 가지 핵심 전략을 사용한다: (1) 결정론적 상미분방정식(ODE)을 원래 모델의 주변 분포를 모든 시간 단계에서 일치시키는 확률적 미분방정식(SDE)으로 변환하는 ODE-to-SDE 변환을 통해 RL 탐색을 위한 통계적 샘플링을 가능하게 하고, (2) 원래 추론 시간 단계 수를 유지하면서 학습 디노이징 단계를 줄이는 Denoising Reduction 전략을 통해 성능 저하 없이 샘플링 효율성을 크게 향상시킨다. 실험적으로, Flow-GRPO는 여러 텍스트-이미지 작업에서 효과적임을 보여준다. 복잡한 구성을 위해 RL로 튜닝된 SD3.5는 거의 완벽한 객체 수, 공간 관계 및 세부 속성을 생성하여 GenEval 정확도를 63%에서 95%로 향상시킨다. 시각적 텍스트 렌더링에서는 정확도가 59%에서 92%로 개선되어 텍스트 생성 능력을 크게 강화한다. 또한 Flow-GRPO는 인간 선호도 정렬에서도 상당한 향상을 달성한다. 특히, 보상 해킹이 거의 발생하지 않아 보상이 이미지 품질이나 다양성을 희생시키지 않고 증가했으며, 두 가지 모두 실험에서 안정적으로 유지되었다.
English
We propose Flow-GRPO, the first method integrating online reinforcement learning (RL) into flow matching models. Our approach uses two key strategies: (1) an ODE-to-SDE conversion that transforms a deterministic Ordinary Differential Equation (ODE) into an equivalent Stochastic Differential Equation (SDE) that matches the original model's marginal distribution at all timesteps, enabling statistical sampling for RL exploration; and (2) a Denoising Reduction strategy that reduces training denoising steps while retaining the original inference timestep number, significantly improving sampling efficiency without performance degradation. Empirically, Flow-GRPO is effective across multiple text-to-image tasks. For complex compositions, RL-tuned SD3.5 generates nearly perfect object counts, spatial relations, and fine-grained attributes, boosting GenEval accuracy from 63% to 95%. In visual text rendering, its accuracy improves from 59% to 92%, significantly enhancing text generation. Flow-GRPO also achieves substantial gains in human preference alignment. Notably, little to no reward hacking occurred, meaning rewards did not increase at the cost of image quality or diversity, and both remained stable in our experiments.

Summary

AI-Generated Summary

PDF352May 9, 2025