GoT: Раскрытие способностей к рассуждению мультимодальной большой языковой модели для визуальной генерации и редактирования
GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing
March 13, 2025
Авторы: Rongyao Fang, Chengqi Duan, Kun Wang, Linjiang Huang, Hao Li, Shilin Yan, Hao Tian, Xingyu Zeng, Rui Zhao, Jifeng Dai, Xihui Liu, Hongsheng Li
cs.AI
Аннотация
Современные методы генерации и редактирования изображений в основном обрабатывают текстовые запросы как прямые входные данные, не анализируя визуальную композицию и явные операции. Мы представляем новый подход под названием Generation Chain-of-Thought (GoT), который позволяет выполнять генерацию и редактирование через явный процесс языкового рассуждения перед выводом изображений. Этот метод преобразует традиционную генерацию и редактирование изображений на основе текста в структуру, управляемую рассуждениями, которая анализирует семантические отношения и пространственные композиции. Мы определяем формулировку GoT и создаем крупномасштабные наборы данных GoT, содержащие более 9 миллионов образцов с детализированными цепочками рассуждений, фиксирующими семантико-пространственные связи. Чтобы использовать преимущества GoT, мы реализуем унифицированную структуру, которая интегрирует Qwen2.5-VL для генерации цепочек рассуждений с диффузионной моделью end-to-end, усиленной нашим новым модулем Semantic-Spatial Guidance. Эксперименты показывают, что наша структура GoT демонстрирует превосходные результаты как в задачах генерации, так и редактирования, значительно превосходя базовые методы. Кроме того, наш подход позволяет интерактивно управлять визуальной генерацией, предоставляя пользователям возможность явно изменять шаги рассуждений для точной настройки изображений. GoT открывает новое направление для визуальной генерации и редактирования, управляемых рассуждениями, создавая изображения, которые лучше соответствуют человеческим намерениям. Для содействия будущим исследованиям мы делаем наши наборы данных, код и предобученные модели общедоступными по адресу https://github.com/rongyaofang/GoT.
English
Current image generation and editing methods primarily process textual
prompts as direct inputs without reasoning about visual composition and
explicit operations. We present Generation Chain-of-Thought (GoT), a novel
paradigm that enables generation and editing through an explicit language
reasoning process before outputting images. This approach transforms
conventional text-to-image generation and editing into a reasoning-guided
framework that analyzes semantic relationships and spatial arrangements. We
define the formulation of GoT and construct large-scale GoT datasets containing
over 9M samples with detailed reasoning chains capturing semantic-spatial
relationships. To leverage the advantages of GoT, we implement a unified
framework that integrates Qwen2.5-VL for reasoning chain generation with an
end-to-end diffusion model enhanced by our novel Semantic-Spatial Guidance
Module. Experiments show our GoT framework achieves excellent performance on
both generation and editing tasks, with significant improvements over
baselines. Additionally, our approach enables interactive visual generation,
allowing users to explicitly modify reasoning steps for precise image
adjustments. GoT pioneers a new direction for reasoning-driven visual
generation and editing, producing images that better align with human intent.
To facilitate future research, we make our datasets, code, and pretrained
models publicly available at https://github.com/rongyaofang/GoT.Summary
AI-Generated Summary