ChatPaper.aiChatPaper

GoT-R1:強化学習による視覚生成のためのMLLMの推論能力の解放

GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning

May 22, 2025
著者: Chengqi Duan, Rongyao Fang, Yuqing Wang, Kun Wang, Linjiang Huang, Xingyu Zeng, Hongsheng Li, Xihui Liu
cs.AI

要旨

視覚生成モデルは、テキストプロンプトから現実的な画像を作成する点で目覚ましい進歩を遂げてきたが、複数のオブジェクトとその正確な空間的関係や属性を指定する複雑なプロンプトには苦戦している。このようなプロンプトを効果的に処理するためには、意味内容と空間的レイアウトについての明示的な推論が必要である。本論文では、視覚生成における意味的・空間的推論を強化するために強化学習を適用したフレームワークGoT-R1を提案する。Generation Chain-of-Thoughtアプローチを基盤として、GoT-R1はモデルが事前定義されたテンプレートを超えて効果的な推論戦略を自律的に発見できるように、慎重に設計された強化学習を可能にする。これを実現するために、我々はMLLMを活用して推論プロセスと最終出力の両方を評価する二段階多次元報酬フレームワークを提案し、生成パイプライン全体にわたる効果的な監視を可能にする。この報酬システムは、意味的整合性、空間的精度、視覚的品質を統合的に評価する。実験結果は、T2I-CompBenchベンチマークにおいて、特に正確な空間的関係と属性の結合を伴う合成的タスクで大幅な改善を示している。GoT-R1は、洗練された推論能力を視覚生成領域に成功裏に転移させることで、画像生成の最先端を進展させる。今後の研究を促進するため、我々はコードと事前学習済みモデルをhttps://github.com/gogoduan/GoT-R1で公開している。
English
Visual generation models have made remarkable progress in creating realistic images from text prompts, yet struggle with complex prompts that specify multiple objects with precise spatial relationships and attributes. Effective handling of such prompts requires explicit reasoning about the semantic content and spatial layout. We present GoT-R1, a framework that applies reinforcement learning to enhance semantic-spatial reasoning in visual generation. Building upon the Generation Chain-of-Thought approach, GoT-R1 enables models to autonomously discover effective reasoning strategies beyond predefined templates through carefully designed reinforcement learning. To achieve this, we propose a dual-stage multi-dimensional reward framework that leverages MLLMs to evaluate both the reasoning process and final output, enabling effective supervision across the entire generation pipeline. The reward system assesses semantic alignment, spatial accuracy, and visual quality in a unified approach. Experimental results demonstrate significant improvements on T2I-CompBench benchmark, particularly in compositional tasks involving precise spatial relationships and attribute binding. GoT-R1 advances the state-of-the-art in image generation by successfully transferring sophisticated reasoning capabilities to the visual generation domain. To facilitate future research, we make our code and pretrained models publicly available at https://github.com/gogoduan/GoT-R1.

Summary

AI-Generated Summary

PDF232May 23, 2025