Kompositionelle Text-zu-Bild-Generierung mit dichten Blob-Repräsentationen
Compositional Text-to-Image Generation with Dense Blob Representations
May 14, 2024
Autoren: Weili Nie, Sifei Liu, Morteza Mardani, Chao Liu, Benjamin Eckart, Arash Vahdat
cs.AI
Zusammenfassung
Bestehende Text-zu-Bild-Modelle haben Schwierigkeiten, komplexen Textanweisungen zu folgen, was die Notwendigkeit zusätzlicher Grundlageingaben für eine bessere Steuerbarkeit aufwirft. In dieser Arbeit schlagen wir vor, eine Szene in visuelle Primitive zu zerlegen - bezeichnet als dichte Blob-Repräsentationen -, die fein granulare Details der Szene enthalten, während sie modular, menscheninterpretierbar und einfach zu konstruieren sind. Basierend auf Blob-Repräsentationen entwickeln wir ein Blob-gegründetes Text-zu-Bild-Diffusionsmodell, genannt BlobGEN, für die kompositorische Generierung. Insbesondere führen wir ein neues maskiertes Kreuz-Aufmerksamkeitsmodul ein, um die Verschmelzung zwischen Blob-Repräsentationen und visuellen Merkmalen zu entwirren. Um die Kompositionsweise großer Sprachmodelle (LLMs) zu nutzen, führen wir einen neuen In-Kontext-Lernansatz ein, um Blob-Repräsentationen aus Textanweisungen zu generieren. Unsere umfangreichen Experimente zeigen, dass BlobGEN eine überlegene Null-Schuss-Generierungsqualität und eine bessere layoutgesteuerte Steuerbarkeit auf MS-COCO erreicht. Wenn durch LLMs ergänzt, zeigt unsere Methode eine überlegene numerische und räumliche Korrektheit bei kompositorischen Bildgenerierungsbewertungen. Projektseite: https://blobgen-2d.github.io.
English
Existing text-to-image models struggle to follow complex text prompts,
raising the need for extra grounding inputs for better controllability. In this
work, we propose to decompose a scene into visual primitives - denoted as dense
blob representations - that contain fine-grained details of the scene while
being modular, human-interpretable, and easy-to-construct. Based on blob
representations, we develop a blob-grounded text-to-image diffusion model,
termed BlobGEN, for compositional generation. Particularly, we introduce a new
masked cross-attention module to disentangle the fusion between blob
representations and visual features. To leverage the compositionality of large
language models (LLMs), we introduce a new in-context learning approach to
generate blob representations from text prompts. Our extensive experiments show
that BlobGEN achieves superior zero-shot generation quality and better
layout-guided controllability on MS-COCO. When augmented by LLMs, our method
exhibits superior numerical and spatial correctness on compositional image
generation benchmarks. Project page: https://blobgen-2d.github.io.Summary
AI-Generated Summary