ChatPaper.aiChatPaper

Композиционная генерация текста в изображение с плотными представлениями блобов

Compositional Text-to-Image Generation with Dense Blob Representations

May 14, 2024
Авторы: Weili Nie, Sifei Liu, Morteza Mardani, Chao Liu, Benjamin Eckart, Arash Vahdat
cs.AI

Аннотация

Существующие модели преобразования текста в изображение испытывают затруднения при выполнении сложных текстовых запросов, что подчеркивает необходимость дополнительных входных данных для улучшения управляемости. В данной работе мы предлагаем декомпозицию сцены на визуальные примитивы - обозначенные как плотные представления блобов - которые содержат мелкозернистые детали сцены, при этом являются модульными, интерпретируемыми человеком и легко конструируемыми. Основываясь на представлениях блобов, мы разрабатываем модель диффузии текста в изображение, связанную с блобами, названную BlobGEN, для композиционной генерации. В частности, мы вводим новый модуль маскированного кросс-внимания для разъединения слияния между представлениями блобов и визуальными признаками. Для использования композиционности больших языковых моделей (LLM) мы предлагаем новый подход к обучению в контексте для генерации представлений блобов из текстовых запросов. Наши обширные эксперименты показывают, что BlobGEN достигает превосходного качества генерации без обучения и лучшей управляемости с учетом макета на наборе данных MS-COCO. Когда модель дополняется LLM, наш метод проявляет превосходную числовую и пространственную корректность на бенчмарках композиционной генерации изображений. Страница проекта: https://blobgen-2d.github.io.
English
Existing text-to-image models struggle to follow complex text prompts, raising the need for extra grounding inputs for better controllability. In this work, we propose to decompose a scene into visual primitives - denoted as dense blob representations - that contain fine-grained details of the scene while being modular, human-interpretable, and easy-to-construct. Based on blob representations, we develop a blob-grounded text-to-image diffusion model, termed BlobGEN, for compositional generation. Particularly, we introduce a new masked cross-attention module to disentangle the fusion between blob representations and visual features. To leverage the compositionality of large language models (LLMs), we introduce a new in-context learning approach to generate blob representations from text prompts. Our extensive experiments show that BlobGEN achieves superior zero-shot generation quality and better layout-guided controllability on MS-COCO. When augmented by LLMs, our method exhibits superior numerical and spatial correctness on compositional image generation benchmarks. Project page: https://blobgen-2d.github.io.

Summary

AI-Generated Summary

PDF181December 15, 2024