ChatPaper.aiChatPaper

GoT: マルチモーダル大規模言語モデルの推論能力を解き放ち、視覚的生成と編集を実現する

GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing

March 13, 2025
著者: Rongyao Fang, Chengqi Duan, Kun Wang, Linjiang Huang, Hao Li, Shilin Yan, Hao Tian, Xingyu Zeng, Rui Zhao, Jifeng Dai, Xihui Liu, Hongsheng Li
cs.AI

要旨

現在の画像生成および編集手法は、主にテキストプロンプトを直接入力として処理し、視覚的な構成や明示的な操作についての推論を行いません。本論文では、Generation Chain-of-Thought (GoT)という新しいパラダイムを提案します。これは、画像を出力する前に明示的な言語推論プロセスを通じて生成と編集を可能にするものです。このアプローチは、従来のテキストから画像への生成と編集を、意味的関係と空間的配置を分析する推論ガイド型フレームワークに変換します。GoTの定式化を定義し、意味的-空間的関係を捕捉した詳細な推論チェーンを含む900万以上のサンプルからなる大規模なGoTデータセットを構築しました。GoTの利点を活用するため、Qwen2.5-VLを推論チェーン生成に統合し、新たに開発したSemantic-Spatial Guidance Moduleによって強化されたエンドツーエンドの拡散モデルを組み込んだ統一フレームワークを実装しました。実験結果は、GoTフレームワークが生成および編集タスクにおいて優れた性能を発揮し、ベースラインを大幅に上回る改善を示しています。さらに、本手法はインタラクティブな視覚生成を可能にし、ユーザーが推論ステップを明示的に修正して正確な画像調整を行うことを可能にします。GoTは、推論駆動型の視覚生成と編集の新たな方向性を切り開き、人間の意図により適した画像を生成します。今後の研究を促進するため、データセット、コード、および事前学習済みモデルをhttps://github.com/rongyaofang/GoTで公開しています。
English
Current image generation and editing methods primarily process textual prompts as direct inputs without reasoning about visual composition and explicit operations. We present Generation Chain-of-Thought (GoT), a novel paradigm that enables generation and editing through an explicit language reasoning process before outputting images. This approach transforms conventional text-to-image generation and editing into a reasoning-guided framework that analyzes semantic relationships and spatial arrangements. We define the formulation of GoT and construct large-scale GoT datasets containing over 9M samples with detailed reasoning chains capturing semantic-spatial relationships. To leverage the advantages of GoT, we implement a unified framework that integrates Qwen2.5-VL for reasoning chain generation with an end-to-end diffusion model enhanced by our novel Semantic-Spatial Guidance Module. Experiments show our GoT framework achieves excellent performance on both generation and editing tasks, with significant improvements over baselines. Additionally, our approach enables interactive visual generation, allowing users to explicitly modify reasoning steps for precise image adjustments. GoT pioneers a new direction for reasoning-driven visual generation and editing, producing images that better align with human intent. To facilitate future research, we make our datasets, code, and pretrained models publicly available at https://github.com/rongyaofang/GoT.

Summary

AI-Generated Summary

PDF502March 14, 2025