ReasonGen-R1: CoT für autoregressive Bildgenerierungsmodelle durch SFT und RL

papers.abstract

Obwohl Chain-of-Thought-Reasoning und Reinforcement Learning (RL) Durchbrüche im Bereich der NLP vorangetrieben haben, bleibt ihre Integration in generative Bildmodelle weitgehend unerforscht. Wir stellen ReasonGen-R1 vor, ein zweistufiges Framework, das zunächst einen autoregressiven Bildgenerator durch überwachtes Feinabstimmen auf einem neu generierten Reasoning-Datensatz mit schriftlichen Begründungen explizite textbasierte „Denkfähigkeiten“ verleiht und anschließend seine Ausgaben mithilfe von Group Relative Policy Optimization verfeinert. Um dem Modell zu ermöglichen, vor der Bildgenerierung durch Text zu argumentieren, generieren und veröffentlichen wir automatisch einen Korpus von modellgestalteten Begründungen, die mit visuellen Prompts gepaart sind. Dies ermöglicht eine kontrollierte Planung von Objektlayouts, Stilen und Szenenkompositionen. Unser GRPO-Algorithmus nutzt Belohnungssignale eines vortrainierten Vision-Language-Modells, um die Gesamtqualität der Bilder zu bewerten und optimiert die Policy bei jedem Update. Bewertungen auf GenEval, DPG und dem T2I-Benchmark zeigen, dass ReasonGen-R1 durchweg starke Baselines und bisherige State-of-the-Art-Modelle übertrifft. Mehr unter: aka.ms/reasongen.

English

Although chain-of-thought reasoning and reinforcement learning (RL) have driven breakthroughs in NLP, their integration into generative vision models remains underexplored. We introduce ReasonGen-R1, a two-stage framework that first imbues an autoregressive image generator with explicit text-based "thinking" skills via supervised fine-tuning on a newly generated reasoning dataset of written rationales, and then refines its outputs using Group Relative Policy Optimization. To enable the model to reason through text before generating images, We automatically generate and release a corpus of model crafted rationales paired with visual prompts, enabling controlled planning of object layouts, styles, and scene compositions. Our GRPO algorithm uses reward signals from a pretrained vision language model to assess overall visual quality, optimizing the policy in each update. Evaluations on GenEval, DPG, and the T2I benchmark demonstrate that ReasonGen-R1 consistently outperforms strong baselines and prior state-of-the-art models. More: aka.ms/reasongen.

ReasonGen-R1: CoT für autoregressive Bildgenerierungsmodelle durch SFT und RL

ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL

papers.abstract

Support