Generación Composicional de Imágenes a partir de Texto con Representaciones Densas de Manchas

Resumen

Los modelos existentes de texto a imagen tienen dificultades para seguir instrucciones textuales complejas, lo que plantea la necesidad de entradas adicionales para lograr una mejor controlabilidad. En este trabajo, proponemos descomponer una escena en primitivas visuales -denominadas representaciones de bloques densos- que contienen detalles finos de la escena mientras son modulares, interpretables por humanos y fáciles de construir. Basándonos en las representaciones de bloques, desarrollamos un modelo de difusión de texto a imagen anclado en bloques, denominado BlobGEN, para la generación composicional. En particular, introducimos un nuevo módulo de atención cruzada enmascarada para desentrelazar la fusión entre las representaciones de bloques y las características visuales. Para aprovechar la capacidad composicional de los modelos de lenguaje grandes (LLMs), introducimos un nuevo enfoque de aprendizaje en contexto para generar representaciones de bloques a partir de instrucciones textuales. Nuestros extensos experimentos muestran que BlobGEN logra una calidad de generación en cero-shot superior y una mejor controlabilidad guiada por el diseño en MS-COCO. Cuando se aumenta con LLMs, nuestro método exhibe una corrección numérica y espacial superior en benchmarks de generación composicional de imágenes. Página del proyecto: https://blobgen-2d.github.io.

English

Existing text-to-image models struggle to follow complex text prompts, raising the need for extra grounding inputs for better controllability. In this work, we propose to decompose a scene into visual primitives - denoted as dense blob representations - that contain fine-grained details of the scene while being modular, human-interpretable, and easy-to-construct. Based on blob representations, we develop a blob-grounded text-to-image diffusion model, termed BlobGEN, for compositional generation. Particularly, we introduce a new masked cross-attention module to disentangle the fusion between blob representations and visual features. To leverage the compositionality of large language models (LLMs), we introduce a new in-context learning approach to generate blob representations from text prompts. Our extensive experiments show that BlobGEN achieves superior zero-shot generation quality and better layout-guided controllability on MS-COCO. When augmented by LLMs, our method exhibits superior numerical and spatial correctness on compositional image generation benchmarks. Project page: https://blobgen-2d.github.io.

Generación Composicional de Imágenes a partir de Texto con Representaciones Densas de Manchas

Compositional Text-to-Image Generation with Dense Blob Representations

Resumen

Support