GoT : Libérer les capacités de raisonnement des modèles de langage multimodaux de grande taille pour la génération et l'édition visuelles
GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing
March 13, 2025
Auteurs: Rongyao Fang, Chengqi Duan, Kun Wang, Linjiang Huang, Hao Li, Shilin Yan, Hao Tian, Xingyu Zeng, Rui Zhao, Jifeng Dai, Xihui Liu, Hongsheng Li
cs.AI
Résumé
Les méthodes actuelles de génération et d'édition d'images traitent principalement les invites textuelles comme des entrées directes sans raisonnement sur la composition visuelle et les opérations explicites. Nous présentons Generation Chain-of-Thought (GoT), un nouveau paradigme qui permet la génération et l'édition à travers un processus de raisonnement linguistique explicite avant la production d'images. Cette approche transforme la génération et l'édition conventionnelles de texte-à-image en un cadre guidé par le raisonnement qui analyse les relations sémantiques et les arrangements spatiaux. Nous définissons la formulation de GoT et construisons des ensembles de données GoT à grande échelle contenant plus de 9 millions d'échantillons avec des chaînes de raisonnement détaillées capturant les relations sémantico-spatiales. Pour tirer parti des avantages de GoT, nous mettons en œuvre un cadre unifié qui intègre Qwen2.5-VL pour la génération de chaînes de raisonnement avec un modèle de diffusion end-to-end amélioré par notre nouveau module de guidage sémantico-spatial. Les expériences montrent que notre cadre GoT obtient d'excellentes performances sur les tâches de génération et d'édition, avec des améliorations significatives par rapport aux bases de référence. De plus, notre approche permet une génération visuelle interactive, permettant aux utilisateurs de modifier explicitement les étapes de raisonnement pour des ajustements précis de l'image. GoT ouvre une nouvelle direction pour la génération et l'édition visuelles guidées par le raisonnement, produisant des images qui s'alignent mieux sur l'intention humaine. Pour faciliter les recherches futures, nous mettons à disposition nos ensembles de données, code et modèles pré-entraînés à l'adresse https://github.com/rongyaofang/GoT.
English
Current image generation and editing methods primarily process textual
prompts as direct inputs without reasoning about visual composition and
explicit operations. We present Generation Chain-of-Thought (GoT), a novel
paradigm that enables generation and editing through an explicit language
reasoning process before outputting images. This approach transforms
conventional text-to-image generation and editing into a reasoning-guided
framework that analyzes semantic relationships and spatial arrangements. We
define the formulation of GoT and construct large-scale GoT datasets containing
over 9M samples with detailed reasoning chains capturing semantic-spatial
relationships. To leverage the advantages of GoT, we implement a unified
framework that integrates Qwen2.5-VL for reasoning chain generation with an
end-to-end diffusion model enhanced by our novel Semantic-Spatial Guidance
Module. Experiments show our GoT framework achieves excellent performance on
both generation and editing tasks, with significant improvements over
baselines. Additionally, our approach enables interactive visual generation,
allowing users to explicitly modify reasoning steps for precise image
adjustments. GoT pioneers a new direction for reasoning-driven visual
generation and editing, producing images that better align with human intent.
To facilitate future research, we make our datasets, code, and pretrained
models publicly available at https://github.com/rongyaofang/GoT.Summary
AI-Generated Summary