GoT: Liberando la Capacidad de Razonamiento de los Modelos de Lenguaje Multimodales de Gran Escala para la Generación y Edición Visual
GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing
March 13, 2025
Autores: Rongyao Fang, Chengqi Duan, Kun Wang, Linjiang Huang, Hao Li, Shilin Yan, Hao Tian, Xingyu Zeng, Rui Zhao, Jifeng Dai, Xihui Liu, Hongsheng Li
cs.AI
Resumen
Los métodos actuales de generación y edición de imágenes procesan principalmente indicaciones textuales como entradas directas sin razonar sobre la composición visual ni las operaciones explícitas. Presentamos Generation Chain-of-Thought (GoT), un paradigma novedoso que permite la generación y edición a través de un proceso de razonamiento lingüístico explícito antes de producir imágenes. Este enfoque transforma la generación y edición convencional de texto a imagen en un marco guiado por razonamiento que analiza relaciones semánticas y arreglos espaciales. Definimos la formulación de GoT y construimos conjuntos de datos a gran escala de GoT que contienen más de 9M de muestras con cadenas de razonamiento detalladas que capturan relaciones semántico-espaciales. Para aprovechar las ventajas de GoT, implementamos un marco unificado que integra Qwen2.5-VL para la generación de cadenas de razonamiento con un modelo de difusión de extremo a extremo mejorado por nuestro nuevo Módulo de Guía Semántico-Espacial. Los experimentos muestran que nuestro marco GoT logra un rendimiento excelente en tareas de generación y edición, con mejoras significativas respecto a los baselines. Además, nuestro enfoque permite la generación visual interactiva, permitiendo a los usuarios modificar explícitamente los pasos de razonamiento para ajustes precisos de la imagen. GoT inaugura una nueva dirección para la generación y edición visual impulsada por razonamiento, produciendo imágenes que se alinean mejor con la intención humana. Para facilitar investigaciones futuras, ponemos a disposición pública nuestros conjuntos de datos, código y modelos preentrenados en https://github.com/rongyaofang/GoT.
English
Current image generation and editing methods primarily process textual
prompts as direct inputs without reasoning about visual composition and
explicit operations. We present Generation Chain-of-Thought (GoT), a novel
paradigm that enables generation and editing through an explicit language
reasoning process before outputting images. This approach transforms
conventional text-to-image generation and editing into a reasoning-guided
framework that analyzes semantic relationships and spatial arrangements. We
define the formulation of GoT and construct large-scale GoT datasets containing
over 9M samples with detailed reasoning chains capturing semantic-spatial
relationships. To leverage the advantages of GoT, we implement a unified
framework that integrates Qwen2.5-VL for reasoning chain generation with an
end-to-end diffusion model enhanced by our novel Semantic-Spatial Guidance
Module. Experiments show our GoT framework achieves excellent performance on
both generation and editing tasks, with significant improvements over
baselines. Additionally, our approach enables interactive visual generation,
allowing users to explicitly modify reasoning steps for precise image
adjustments. GoT pioneers a new direction for reasoning-driven visual
generation and editing, producing images that better align with human intent.
To facilitate future research, we make our datasets, code, and pretrained
models publicly available at https://github.com/rongyaofang/GoT.Summary
AI-Generated Summary