Geração Composicional de Imagens a partir de Texto com Representações de Blobs Densos
Compositional Text-to-Image Generation with Dense Blob Representations
May 14, 2024
Autores: Weili Nie, Sifei Liu, Morteza Mardani, Chao Liu, Benjamin Eckart, Arash Vahdat
cs.AI
Resumo
Os modelos existentes de texto para imagem enfrentam dificuldades em seguir instruções textuais complexas, destacando a necessidade de entradas adicionais para melhorar a controlabilidade. Neste trabalho, propomos decompor uma cena em primitivos visuais - denominados como representações de blobs densos - que contêm detalhes refinados da cena, ao mesmo tempo que são modulares, interpretáveis por humanos e fáceis de construir. Com base nas representações de blobs, desenvolvemos um modelo de difusão de texto para imagem fundamentado em blobs, denominado BlobGEN, para geração composicional. Especificamente, introduzimos um novo módulo de atenção cruzada mascarada para desembaraçar a fusão entre as representações de blobs e as características visuais. Para aproveitar a composicionalidade dos modelos de linguagem de grande escala (LLMs), introduzimos uma nova abordagem de aprendizado em contexto para gerar representações de blobs a partir de instruções textuais. Nossos experimentos extensivos mostram que o BlobGEN alcança uma qualidade superior de geração zero-shot e uma melhor controlabilidade guiada por layout no MS-COCO. Quando aumentado por LLMs, nosso método exibe superior correção numérica e espacial em benchmarks de geração composicional de imagens. Página do projeto: https://blobgen-2d.github.io.
English
Existing text-to-image models struggle to follow complex text prompts,
raising the need for extra grounding inputs for better controllability. In this
work, we propose to decompose a scene into visual primitives - denoted as dense
blob representations - that contain fine-grained details of the scene while
being modular, human-interpretable, and easy-to-construct. Based on blob
representations, we develop a blob-grounded text-to-image diffusion model,
termed BlobGEN, for compositional generation. Particularly, we introduce a new
masked cross-attention module to disentangle the fusion between blob
representations and visual features. To leverage the compositionality of large
language models (LLMs), we introduce a new in-context learning approach to
generate blob representations from text prompts. Our extensive experiments show
that BlobGEN achieves superior zero-shot generation quality and better
layout-guided controllability on MS-COCO. When augmented by LLMs, our method
exhibits superior numerical and spatial correctness on compositional image
generation benchmarks. Project page: https://blobgen-2d.github.io.