GoT: Sfruttare le Capacità di Ragionamento dei Modelli Linguistici Multimodali di Grande Scala per la Generazione e Modifica Visiva
GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing
March 13, 2025
Autori: Rongyao Fang, Chengqi Duan, Kun Wang, Linjiang Huang, Hao Li, Shilin Yan, Hao Tian, Xingyu Zeng, Rui Zhao, Jifeng Dai, Xihui Liu, Hongsheng Li
cs.AI
Abstract
I metodi attuali di generazione e modifica delle immagini elaborano principalmente i prompt testuali come input diretti senza ragionare sulla composizione visiva e sulle operazioni esplicite. Presentiamo Generation Chain-of-Thought (GoT), un nuovo paradigma che abilita la generazione e la modifica attraverso un processo esplicito di ragionamento linguistico prima di produrre le immagini. Questo approccio trasforma la generazione e la modifica convenzionale da testo a immagine in un framework guidato dal ragionamento che analizza le relazioni semantiche e gli arrangiamenti spaziali. Definiamo la formulazione di GoT e costruiamo dataset GoT su larga scala contenenti oltre 9 milioni di campioni con catene di ragionamento dettagliate che catturano le relazioni semantico-spaziali. Per sfruttare i vantaggi di GoT, implementiamo un framework unificato che integra Qwen2.5-VL per la generazione di catene di ragionamento con un modello di diffusione end-to-end potenziato dal nostro nuovo Modulo di Guida Semantico-Spaziale. Gli esperimenti dimostrano che il nostro framework GoT raggiunge prestazioni eccellenti sia nei compiti di generazione che di modifica, con miglioramenti significativi rispetto ai baseline. Inoltre, il nostro approccio abilita la generazione visiva interattiva, consentendo agli utenti di modificare esplicitamente i passaggi di ragionamento per aggiustamenti precisi delle immagini. GoT apre una nuova direzione per la generazione e la modifica visiva guidata dal ragionamento, producendo immagini che si allineano meglio con l'intento umano. Per facilitare la ricerca futura, rendiamo pubblicamente disponibili i nostri dataset, codice e modelli preaddestrati all'indirizzo https://github.com/rongyaofang/GoT.
English
Current image generation and editing methods primarily process textual
prompts as direct inputs without reasoning about visual composition and
explicit operations. We present Generation Chain-of-Thought (GoT), a novel
paradigm that enables generation and editing through an explicit language
reasoning process before outputting images. This approach transforms
conventional text-to-image generation and editing into a reasoning-guided
framework that analyzes semantic relationships and spatial arrangements. We
define the formulation of GoT and construct large-scale GoT datasets containing
over 9M samples with detailed reasoning chains capturing semantic-spatial
relationships. To leverage the advantages of GoT, we implement a unified
framework that integrates Qwen2.5-VL for reasoning chain generation with an
end-to-end diffusion model enhanced by our novel Semantic-Spatial Guidance
Module. Experiments show our GoT framework achieves excellent performance on
both generation and editing tasks, with significant improvements over
baselines. Additionally, our approach enables interactive visual generation,
allowing users to explicitly modify reasoning steps for precise image
adjustments. GoT pioneers a new direction for reasoning-driven visual
generation and editing, producing images that better align with human intent.
To facilitate future research, we make our datasets, code, and pretrained
models publicly available at https://github.com/rongyaofang/GoT.