Compositionele Tekst-naar-Beeld Generatie met Dense Blob Representaties
Compositional Text-to-Image Generation with Dense Blob Representations
May 14, 2024
Auteurs: Weili Nie, Sifei Liu, Morteza Mardani, Chao Liu, Benjamin Eckart, Arash Vahdat
cs.AI
Samenvatting
Bestaande tekst-naar-beeldmodellen hebben moeite met het volgen van complexe tekstprompts, wat de behoefte aan extra grondingsinvoer voor betere bestuurbaarheid vergroot. In dit werk stellen we voor om een scène te ontbinden in visuele primitieven - aangeduid als dichte blob-representaties - die fijnmazige details van de scène bevatten, terwijl ze modulair, menselijk interpreteerbaar en gemakkelijk te construeren zijn. Op basis van blob-representaties ontwikkelen we een blob-gegrond tekst-naar-beeld diffusiemodel, genaamd BlobGEN, voor compositionele generatie. In het bijzonder introduceren we een nieuwe gemaskeerde cross-attention module om de fusie tussen blob-representaties en visuele kenmerken te ontwarren. Om de compositionele eigenschappen van grote taalmodellen (LLMs) te benutten, introduceren we een nieuwe in-context learning aanpak om blob-representaties te genereren uit tekstprompts. Onze uitgebreide experimenten tonen aan dat BlobGEN superieure zero-shot generatiekwaliteit en betere lay-out-gestuurde bestuurbaarheid bereikt op MS-COCO. Wanneer aangevuld met LLMs, toont onze methode superieure numerieke en ruimtelijke correctheid op benchmarks voor compositionele beeldgeneratie. Projectpagina: https://blobgen-2d.github.io.
English
Existing text-to-image models struggle to follow complex text prompts,
raising the need for extra grounding inputs for better controllability. In this
work, we propose to decompose a scene into visual primitives - denoted as dense
blob representations - that contain fine-grained details of the scene while
being modular, human-interpretable, and easy-to-construct. Based on blob
representations, we develop a blob-grounded text-to-image diffusion model,
termed BlobGEN, for compositional generation. Particularly, we introduce a new
masked cross-attention module to disentangle the fusion between blob
representations and visual features. To leverage the compositionality of large
language models (LLMs), we introduce a new in-context learning approach to
generate blob representations from text prompts. Our extensive experiments show
that BlobGEN achieves superior zero-shot generation quality and better
layout-guided controllability on MS-COCO. When augmented by LLMs, our method
exhibits superior numerical and spatial correctness on compositional image
generation benchmarks. Project page: https://blobgen-2d.github.io.