ReasonGen-R1 : CoT pour les modèles de génération d'images autorégressifs via SFT et RL
ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL
May 30, 2025
Auteurs: Yu Zhang, Yunqi Li, Yifan Yang, Rui Wang, Yuqing Yang, Dai Qi, Jianmin Bao, Dongdong Chen, Chong Luo, Lili Qiu
cs.AI
Résumé
Bien que le raisonnement en chaîne de pensée et l'apprentissage par renforcement (RL) aient conduit à des avancées majeures en traitement du langage naturel (NLP), leur intégration dans les modèles génératifs visuels reste peu explorée. Nous présentons ReasonGen-R1, un cadre en deux étapes qui, dans un premier temps, dote un générateur d'images autorégressif de compétences explicites de « réflexion » basées sur le texte via un réglage fin supervisé sur un nouvel ensemble de données de raisonnement contenant des justifications écrites, puis affine ses sorties à l'aide de l'optimisation de politique relative par groupe (Group Relative Policy Optimization). Pour permettre au modèle de raisonner via le texte avant de générer des images, nous générons automatiquement et publions un corpus de justifications élaborées par le modèle, associées à des invites visuelles, permettant une planification contrôlée des dispositions d'objets, des styles et des compositions de scènes. Notre algorithme GRPO utilise des signaux de récompense provenant d'un modèle de langage visuel pré-entraîné pour évaluer la qualité visuelle globale, optimisant la politique à chaque mise à jour. Les évaluations sur GenEval, DPG et le benchmark T2I démontrent que ReasonGen-R1 surpasse systématiquement les modèles de référence solides et les modèles de pointe antérieurs. Plus d'informations : aka.ms/reasongen.
English
Although chain-of-thought reasoning and reinforcement learning (RL) have
driven breakthroughs in NLP, their integration into generative vision models
remains underexplored. We introduce ReasonGen-R1, a two-stage framework that
first imbues an autoregressive image generator with explicit text-based
"thinking" skills via supervised fine-tuning on a newly generated reasoning
dataset of written rationales, and then refines its outputs using Group
Relative Policy Optimization. To enable the model to reason through text before
generating images, We automatically generate and release a corpus of model
crafted rationales paired with visual prompts, enabling controlled planning of
object layouts, styles, and scene compositions. Our GRPO algorithm uses reward
signals from a pretrained vision language model to assess overall visual
quality, optimizing the policy in each update. Evaluations on GenEval, DPG, and
the T2I benchmark demonstrate that ReasonGen-R1 consistently outperforms strong
baselines and prior state-of-the-art models. More: aka.ms/reasongen.