ReasonGen-R1: CoT für autoregressive Bildgenerierungsmodelle durch SFT und RL
ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL
May 30, 2025
Autoren: Yu Zhang, Yunqi Li, Yifan Yang, Rui Wang, Yuqing Yang, Dai Qi, Jianmin Bao, Dongdong Chen, Chong Luo, Lili Qiu
cs.AI
Zusammenfassung
Obwohl Chain-of-Thought-Reasoning und Reinforcement Learning (RL) Durchbrüche im Bereich der NLP vorangetrieben haben, bleibt ihre Integration in generative Bildmodelle weitgehend unerforscht. Wir stellen ReasonGen-R1 vor, ein zweistufiges Framework, das zunächst einen autoregressiven Bildgenerator durch überwachtes Feinabstimmen auf einem neu generierten Reasoning-Datensatz mit schriftlichen Begründungen explizite textbasierte „Denkfähigkeiten“ verleiht und anschließend seine Ausgaben mithilfe von Group Relative Policy Optimization verfeinert. Um dem Modell zu ermöglichen, vor der Bildgenerierung durch Text zu argumentieren, generieren und veröffentlichen wir automatisch einen Korpus von modellgestalteten Begründungen, die mit visuellen Prompts gepaart sind. Dies ermöglicht eine kontrollierte Planung von Objektlayouts, Stilen und Szenenkompositionen. Unser GRPO-Algorithmus nutzt Belohnungssignale eines vortrainierten Vision-Language-Modells, um die Gesamtqualität der Bilder zu bewerten und optimiert die Policy bei jedem Update. Bewertungen auf GenEval, DPG und dem T2I-Benchmark zeigen, dass ReasonGen-R1 durchweg starke Baselines und bisherige State-of-the-Art-Modelle übertrifft. Mehr unter: aka.ms/reasongen.
English
Although chain-of-thought reasoning and reinforcement learning (RL) have
driven breakthroughs in NLP, their integration into generative vision models
remains underexplored. We introduce ReasonGen-R1, a two-stage framework that
first imbues an autoregressive image generator with explicit text-based
"thinking" skills via supervised fine-tuning on a newly generated reasoning
dataset of written rationales, and then refines its outputs using Group
Relative Policy Optimization. To enable the model to reason through text before
generating images, We automatically generate and release a corpus of model
crafted rationales paired with visual prompts, enabling controlled planning of
object layouts, styles, and scene compositions. Our GRPO algorithm uses reward
signals from a pretrained vision language model to assess overall visual
quality, optimizing the policy in each update. Evaluations on GenEval, DPG, and
the T2I benchmark demonstrate that ReasonGen-R1 consistently outperforms strong
baselines and prior state-of-the-art models. More: aka.ms/reasongen.