Освоение диффузии текста в изображение: переописание, планирование и генерация с использованием мультимодальных больших языковых моделей
Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs
January 22, 2024
Авторы: Ling Yang, Zhaochen Yu, Chenlin Meng, Minkai Xu, Stefano Ermon, Bin Cui
cs.AI
Аннотация
Диффузионные модели продемонстрировали выдающиеся результаты в генерации и редактировании изображений на основе текста. Однако существующие методы часто сталкиваются с трудностями при обработке сложных текстовых запросов, включающих несколько объектов с множеством атрибутов и взаимосвязей. В данной статье мы предлагаем совершенно новый подход к генерации и редактированию изображений на основе текста, не требующий дополнительного обучения, — Recaption, Plan and Generate (RPG), который использует мощные способности мультимодальных языковых моделей (MLLM) к цепочечным рассуждениям для улучшения композиционности текстово-ориентированных диффузионных моделей. Наш подход использует MLLM в качестве глобального планировщика, разбивая процесс генерации сложных изображений на несколько более простых задач генерации в субрегионах. Мы предлагаем дополнительную региональную диффузию для обеспечения композиционной генерации по регионам. Кроме того, мы интегрируем генерацию и редактирование изображений на основе текста в рамках предложенного RPG в замкнутом цикле, что повышает способность к обобщению. Многочисленные эксперименты показывают, что наш RPG превосходит современные диффузионные модели для генерации изображений на основе текста, включая DALL-E 3 и SDXL, особенно в композиции объектов нескольких категорий и семантическом согласовании текста и изображения. Примечательно, что наш RPG демонстрирует широкую совместимость с различными архитектурами MLLM (например, MiniGPT-4) и диффузионными бэкбонами (например, ControlNet). Наш код доступен по адресу: https://github.com/YangLing0818/RPG-DiffusionMaster.
English
Diffusion models have exhibit exceptional performance in text-to-image
generation and editing. However, existing methods often face challenges when
handling complex text prompts that involve multiple objects with multiple
attributes and relationships. In this paper, we propose a brand new
training-free text-to-image generation/editing framework, namely Recaption,
Plan and Generate (RPG), harnessing the powerful chain-of-thought reasoning
ability of multimodal LLMs to enhance the compositionality of text-to-image
diffusion models. Our approach employs the MLLM as a global planner to
decompose the process of generating complex images into multiple simpler
generation tasks within subregions. We propose complementary regional diffusion
to enable region-wise compositional generation. Furthermore, we integrate
text-guided image generation and editing within the proposed RPG in a
closed-loop fashion, thereby enhancing generalization ability. Extensive
experiments demonstrate our RPG outperforms state-of-the-art text-to-image
diffusion models, including DALL-E 3 and SDXL, particularly in multi-category
object composition and text-image semantic alignment. Notably, our RPG
framework exhibits wide compatibility with various MLLM architectures (e.g.,
MiniGPT-4) and diffusion backbones (e.g., ControlNet). Our code is available
at: https://github.com/YangLing0818/RPG-DiffusionMaster