ReasonGen-R1: 자기회귀적 이미지 생성 모델을 위한 CoT - SFT와 RL을 통한 접근
ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL
May 30, 2025
저자: Yu Zhang, Yunqi Li, Yifan Yang, Rui Wang, Yuqing Yang, Dai Qi, Jianmin Bao, Dongdong Chen, Chong Luo, Lili Qiu
cs.AI
초록
체인 오브 사고(chain-of-thought) 추론과 강화 학습(RL)이 NLP 분야에서 획기적인 발전을 이끌었지만, 이러한 기술이 생성형 비전 모델에 통합되는 것은 아직 충분히 탐구되지 않았습니다. 우리는 ReasonGen-R1이라는 두 단계 프레임워크를 소개합니다. 이 프레임워크는 먼저 새롭게 생성된 추론 데이터셋에 대한 지도 미세 조정을 통해 자동회귀 이미지 생성기에 명시적인 텍스트 기반 "사고" 능력을 부여하고, 그런 다음 Group Relative Policy Optimization을 사용하여 출력을 개선합니다. 모델이 이미지를 생성하기 전에 텍스트를 통해 추론할 수 있도록, 우리는 시각적 프롬프트와 짝을 이루는 모델 제작 근거 데이터셋을 자동으로 생성 및 공개하여 객체 배치, 스타일, 장면 구성을 통제적으로 계획할 수 있게 합니다. 우리의 GRPO 알고리즘은 사전 학습된 비전 언어 모델에서 얻은 보상 신호를 사용하여 전반적인 시각적 품질을 평가하고, 각 업데이트에서 정책을 최적화합니다. GenEval, DPG, 그리고 T2I 벤치마크에서의 평가 결과, ReasonGen-R1은 강력한 베이스라인과 기존의 최첨단 모델들을 꾸준히 능가하는 성능을 보여줍니다. 자세한 내용은 aka.ms/reasongen에서 확인할 수 있습니다.
English
Although chain-of-thought reasoning and reinforcement learning (RL) have
driven breakthroughs in NLP, their integration into generative vision models
remains underexplored. We introduce ReasonGen-R1, a two-stage framework that
first imbues an autoregressive image generator with explicit text-based
"thinking" skills via supervised fine-tuning on a newly generated reasoning
dataset of written rationales, and then refines its outputs using Group
Relative Policy Optimization. To enable the model to reason through text before
generating images, We automatically generate and release a corpus of model
crafted rationales paired with visual prompts, enabling controlled planning of
object layouts, styles, and scene compositions. Our GRPO algorithm uses reward
signals from a pretrained vision language model to assess overall visual
quality, optimizing the policy in each update. Evaluations on GenEval, DPG, and
the T2I benchmark demonstrate that ReasonGen-R1 consistently outperforms strong
baselines and prior state-of-the-art models. More: aka.ms/reasongen.