ChatPaper.aiChatPaper

ReasonGen-R1:SFTとRLによる自己回帰型画像生成モデルのための連鎖的思考(CoT)

ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL

May 30, 2025
著者: Yu Zhang, Yunqi Li, Yifan Yang, Rui Wang, Yuqing Yang, Dai Qi, Jianmin Bao, Dongdong Chen, Chong Luo, Lili Qiu
cs.AI

要旨

連鎖的思考推論と強化学習(RL)はNLP分野でブレークスルーをもたらしてきたが、これらの生成型視覚モデルへの統合はまだ十分に探究されていない。本論文では、ReasonGen-R1という2段階のフレームワークを紹介する。このフレームワークは、まず新たに生成された推論データセット(書かれた根拠を含む)を用いた教師ありファインチューニングを通じて、自己回帰型画像生成器に明示的なテキストベースの「思考」スキルを付与し、その後Group Relative Policy Optimizationを用いてその出力を洗練させる。モデルが画像を生成する前にテキストを通じて推論できるようにするため、視覚的プロンプトとペアになったモデル生成の根拠コーパスを自動生成し公開する。これにより、オブジェクトのレイアウト、スタイル、シーン構成の制御された計画が可能となる。我々のGRPOアルゴリズムは、事前学習済みの視覚言語モデルからの報酬信号を使用して全体的な視覚的品質を評価し、各更新でポリシーを最適化する。GenEval、DPG、およびT2Iベンチマークでの評価により、ReasonGen-R1が強力なベースラインや従来の最先端モデルを一貫して上回ることが実証された。詳細はaka.ms/reasongenを参照。
English
Although chain-of-thought reasoning and reinforcement learning (RL) have driven breakthroughs in NLP, their integration into generative vision models remains underexplored. We introduce ReasonGen-R1, a two-stage framework that first imbues an autoregressive image generator with explicit text-based "thinking" skills via supervised fine-tuning on a newly generated reasoning dataset of written rationales, and then refines its outputs using Group Relative Policy Optimization. To enable the model to reason through text before generating images, We automatically generate and release a corpus of model crafted rationales paired with visual prompts, enabling controlled planning of object layouts, styles, and scene compositions. Our GRPO algorithm uses reward signals from a pretrained vision language model to assess overall visual quality, optimizing the policy in each update. Evaluations on GenEval, DPG, and the T2I benchmark demonstrate that ReasonGen-R1 consistently outperforms strong baselines and prior state-of-the-art models. More: aka.ms/reasongen.
PDF102June 2, 2025