GoT: Liberando a Capacidade de Raciocínio de Modelos de Linguagem Multimodais de Grande Escala para Geração e Edição Visual
GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing
March 13, 2025
Autores: Rongyao Fang, Chengqi Duan, Kun Wang, Linjiang Huang, Hao Li, Shilin Yan, Hao Tian, Xingyu Zeng, Rui Zhao, Jifeng Dai, Xihui Liu, Hongsheng Li
cs.AI
Resumo
Os métodos atuais de geração e edição de imagens processam principalmente prompts textuais como entradas diretas, sem raciocinar sobre a composição visual e operações explícitas. Apresentamos o Generation Chain-of-Thought (GoT), um novo paradigma que permite a geração e edição por meio de um processo explícito de raciocínio em linguagem antes de gerar as imagens. Essa abordagem transforma a geração e edição convencional de texto para imagem em um framework guiado por raciocínio que analisa relações semânticas e arranjos espaciais. Definimos a formulação do GoT e construímos grandes conjuntos de dados GoT contendo mais de 9 milhões de amostras com cadeias de raciocínio detalhadas que capturam relações semântico-espaciais. Para aproveitar as vantagens do GoT, implementamos um framework unificado que integra o Qwen2.5-VL para a geração de cadeias de raciocínio com um modelo de difusão end-to-end aprimorado pelo nosso novo Módulo de Orientação Semântico-Espacial. Experimentos mostram que nosso framework GoT alcança excelente desempenho em tarefas de geração e edição, com melhorias significativas em relação às baselines. Além disso, nossa abordagem permite a geração visual interativa, permitindo que os usuários modifiquem explicitamente os passos de raciocínio para ajustes precisos na imagem. O GoT inaugura uma nova direção para a geração e edição visual guiada por raciocínio, produzindo imagens que se alinham melhor com a intenção humana. Para facilitar pesquisas futuras, disponibilizamos publicamente nossos conjuntos de dados, código e modelos pré-treinados em https://github.com/rongyaofang/GoT.
English
Current image generation and editing methods primarily process textual
prompts as direct inputs without reasoning about visual composition and
explicit operations. We present Generation Chain-of-Thought (GoT), a novel
paradigm that enables generation and editing through an explicit language
reasoning process before outputting images. This approach transforms
conventional text-to-image generation and editing into a reasoning-guided
framework that analyzes semantic relationships and spatial arrangements. We
define the formulation of GoT and construct large-scale GoT datasets containing
over 9M samples with detailed reasoning chains capturing semantic-spatial
relationships. To leverage the advantages of GoT, we implement a unified
framework that integrates Qwen2.5-VL for reasoning chain generation with an
end-to-end diffusion model enhanced by our novel Semantic-Spatial Guidance
Module. Experiments show our GoT framework achieves excellent performance on
both generation and editing tasks, with significant improvements over
baselines. Additionally, our approach enables interactive visual generation,
allowing users to explicitly modify reasoning steps for precise image
adjustments. GoT pioneers a new direction for reasoning-driven visual
generation and editing, producing images that better align with human intent.
To facilitate future research, we make our datasets, code, and pretrained
models publicly available at https://github.com/rongyaofang/GoT.Summary
AI-Generated Summary