GoT: Het ontketenen van het redeneervermogen van multimodale grote taalmodellen voor visuele generatie en bewerking
GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing
March 13, 2025
Auteurs: Rongyao Fang, Chengqi Duan, Kun Wang, Linjiang Huang, Hao Li, Shilin Yan, Hao Tian, Xingyu Zeng, Rui Zhao, Jifeng Dai, Xihui Liu, Hongsheng Li
cs.AI
Samenvatting
Huidige methoden voor beeldgeneratie en -bewerking verwerken tekstuele prompts voornamelijk als directe invoer zonder te redeneren over visuele compositie en expliciete operaties. Wij presenteren Generation Chain-of-Thought (GoT), een nieuw paradigma dat generatie en bewerking mogelijk maakt via een expliciet taalredeneerproces voordat beelden worden gegenereerd. Deze aanpak transformeert conventionele tekst-naar-beeldgeneratie en -bewerking in een raamwerk dat wordt geleid door redenering, waarbij semantische relaties en ruimtelijke arrangementen worden geanalyseerd. We definiëren de formulering van GoT en construeren grootschalige GoT-datasets met meer dan 9 miljoen samples die gedetailleerde redeneerketens bevatten die semantisch-ruimtelijke relaties vastleggen. Om de voordelen van GoT te benutten, implementeren we een uniform raamwerk dat Qwen2.5-VL integreert voor het genereren van redeneerketens, samen met een end-to-end diffusiemodel dat is versterkt door onze nieuwe Semantic-Spatial Guidance Module. Experimenten tonen aan dat ons GoT-raamwerk uitstekende prestaties levert bij zowel generatie- als bewerkingstaken, met significante verbeteringen ten opzichte van baseline-methoden. Daarnaast maakt onze aanpak interactieve visuele generatie mogelijk, waardoor gebruikers redeneerstappen expliciet kunnen aanpassen voor precieze beeldwijzigingen. GoT pionier een nieuwe richting voor redenering-gestuurde visuele generatie en bewerking, waarbij beelden worden geproduceerd die beter aansluiten bij menselijke intenties. Om toekomstig onderzoek te faciliteren, maken we onze datasets, code en vooraf getrainde modellen publiekelijk beschikbaar op https://github.com/rongyaofang/GoT.
English
Current image generation and editing methods primarily process textual
prompts as direct inputs without reasoning about visual composition and
explicit operations. We present Generation Chain-of-Thought (GoT), a novel
paradigm that enables generation and editing through an explicit language
reasoning process before outputting images. This approach transforms
conventional text-to-image generation and editing into a reasoning-guided
framework that analyzes semantic relationships and spatial arrangements. We
define the formulation of GoT and construct large-scale GoT datasets containing
over 9M samples with detailed reasoning chains capturing semantic-spatial
relationships. To leverage the advantages of GoT, we implement a unified
framework that integrates Qwen2.5-VL for reasoning chain generation with an
end-to-end diffusion model enhanced by our novel Semantic-Spatial Guidance
Module. Experiments show our GoT framework achieves excellent performance on
both generation and editing tasks, with significant improvements over
baselines. Additionally, our approach enables interactive visual generation,
allowing users to explicitly modify reasoning steps for precise image
adjustments. GoT pioneers a new direction for reasoning-driven visual
generation and editing, producing images that better align with human intent.
To facilitate future research, we make our datasets, code, and pretrained
models publicly available at https://github.com/rongyaofang/GoT.Summary
AI-Generated Summary