Compositionele Tekst-naar-Beeld Generatie met Dense Blob Representaties

Samenvatting

Bestaande tekst-naar-beeldmodellen hebben moeite met het volgen van complexe tekstprompts, wat de behoefte aan extra grondingsinvoer voor betere bestuurbaarheid vergroot. In dit werk stellen we voor om een scène te ontbinden in visuele primitieven - aangeduid als dichte blob-representaties - die fijnmazige details van de scène bevatten, terwijl ze modulair, menselijk interpreteerbaar en gemakkelijk te construeren zijn. Op basis van blob-representaties ontwikkelen we een blob-gegrond tekst-naar-beeld diffusiemodel, genaamd BlobGEN, voor compositionele generatie. In het bijzonder introduceren we een nieuwe gemaskeerde cross-attention module om de fusie tussen blob-representaties en visuele kenmerken te ontwarren. Om de compositionele eigenschappen van grote taalmodellen (LLMs) te benutten, introduceren we een nieuwe in-context learning aanpak om blob-representaties te genereren uit tekstprompts. Onze uitgebreide experimenten tonen aan dat BlobGEN superieure zero-shot generatiekwaliteit en betere lay-out-gestuurde bestuurbaarheid bereikt op MS-COCO. Wanneer aangevuld met LLMs, toont onze methode superieure numerieke en ruimtelijke correctheid op benchmarks voor compositionele beeldgeneratie. Projectpagina: https://blobgen-2d.github.io.

English

Existing text-to-image models struggle to follow complex text prompts, raising the need for extra grounding inputs for better controllability. In this work, we propose to decompose a scene into visual primitives - denoted as dense blob representations - that contain fine-grained details of the scene while being modular, human-interpretable, and easy-to-construct. Based on blob representations, we develop a blob-grounded text-to-image diffusion model, termed BlobGEN, for compositional generation. Particularly, we introduce a new masked cross-attention module to disentangle the fusion between blob representations and visual features. To leverage the compositionality of large language models (LLMs), we introduce a new in-context learning approach to generate blob representations from text prompts. Our extensive experiments show that BlobGEN achieves superior zero-shot generation quality and better layout-guided controllability on MS-COCO. When augmented by LLMs, our method exhibits superior numerical and spatial correctness on compositional image generation benchmarks. Project page: https://blobgen-2d.github.io.

Compositionele Tekst-naar-Beeld Generatie met Dense Blob Representaties

Compositional Text-to-Image Generation with Dense Blob Representations

Samenvatting

Support