Generación Composicional de Imágenes a partir de Texto con Representaciones Densas de Manchas
Compositional Text-to-Image Generation with Dense Blob Representations
May 14, 2024
Autores: Weili Nie, Sifei Liu, Morteza Mardani, Chao Liu, Benjamin Eckart, Arash Vahdat
cs.AI
Resumen
Los modelos existentes de texto a imagen tienen dificultades para seguir instrucciones textuales complejas, lo que plantea la necesidad de entradas adicionales para lograr una mejor controlabilidad. En este trabajo, proponemos descomponer una escena en primitivas visuales -denominadas representaciones de bloques densos- que contienen detalles finos de la escena mientras son modulares, interpretables por humanos y fáciles de construir. Basándonos en las representaciones de bloques, desarrollamos un modelo de difusión de texto a imagen anclado en bloques, denominado BlobGEN, para la generación composicional. En particular, introducimos un nuevo módulo de atención cruzada enmascarada para desentrelazar la fusión entre las representaciones de bloques y las características visuales. Para aprovechar la capacidad composicional de los modelos de lenguaje grandes (LLMs), introducimos un nuevo enfoque de aprendizaje en contexto para generar representaciones de bloques a partir de instrucciones textuales. Nuestros extensos experimentos muestran que BlobGEN logra una calidad de generación en cero-shot superior y una mejor controlabilidad guiada por el diseño en MS-COCO. Cuando se aumenta con LLMs, nuestro método exhibe una corrección numérica y espacial superior en benchmarks de generación composicional de imágenes. Página del proyecto: https://blobgen-2d.github.io.
English
Existing text-to-image models struggle to follow complex text prompts,
raising the need for extra grounding inputs for better controllability. In this
work, we propose to decompose a scene into visual primitives - denoted as dense
blob representations - that contain fine-grained details of the scene while
being modular, human-interpretable, and easy-to-construct. Based on blob
representations, we develop a blob-grounded text-to-image diffusion model,
termed BlobGEN, for compositional generation. Particularly, we introduce a new
masked cross-attention module to disentangle the fusion between blob
representations and visual features. To leverage the compositionality of large
language models (LLMs), we introduce a new in-context learning approach to
generate blob representations from text prompts. Our extensive experiments show
that BlobGEN achieves superior zero-shot generation quality and better
layout-guided controllability on MS-COCO. When augmented by LLMs, our method
exhibits superior numerical and spatial correctness on compositional image
generation benchmarks. Project page: https://blobgen-2d.github.io.