Generazione Composizionale di Immagini da Testo con Rappresentazioni Dense di Blob
Compositional Text-to-Image Generation with Dense Blob Representations
May 14, 2024
Autori: Weili Nie, Sifei Liu, Morteza Mardani, Chao Liu, Benjamin Eckart, Arash Vahdat
cs.AI
Abstract
I modelli esistenti di generazione di immagini da testo faticano a seguire prompt testuali complessi, evidenziando la necessità di input aggiuntivi per un migliore controllo. In questo lavoro, proponiamo di scomporre una scena in primitive visive - denominate rappresentazioni dense a blob - che contengono dettagli granulari della scena pur essendo modulari, interpretabili dall'uomo e facili da costruire. Basandoci sulle rappresentazioni a blob, sviluppiamo un modello di diffusione testo-immagine ancorato ai blob, denominato BlobGEN, per la generazione composizionale. In particolare, introduciamo un nuovo modulo di cross-attention mascherato per separare la fusione tra rappresentazioni a blob e caratteristiche visive. Per sfruttare la composizionalità dei grandi modelli linguistici (LLM), introduciamo un nuovo approccio di apprendimento in-context per generare rappresentazioni a blob da prompt testuali. I nostri ampi esperimenti dimostrano che BlobGEN raggiunge una qualità di generazione zero-shot superiore e un migliore controllo guidato dal layout su MS-COCO. Quando potenziato dagli LLM, il nostro metodo mostra una correttezza numerica e spaziale superiore su benchmark di generazione composizionale di immagini. Pagina del progetto: https://blobgen-2d.github.io.
English
Existing text-to-image models struggle to follow complex text prompts,
raising the need for extra grounding inputs for better controllability. In this
work, we propose to decompose a scene into visual primitives - denoted as dense
blob representations - that contain fine-grained details of the scene while
being modular, human-interpretable, and easy-to-construct. Based on blob
representations, we develop a blob-grounded text-to-image diffusion model,
termed BlobGEN, for compositional generation. Particularly, we introduce a new
masked cross-attention module to disentangle the fusion between blob
representations and visual features. To leverage the compositionality of large
language models (LLMs), we introduce a new in-context learning approach to
generate blob representations from text prompts. Our extensive experiments show
that BlobGEN achieves superior zero-shot generation quality and better
layout-guided controllability on MS-COCO. When augmented by LLMs, our method
exhibits superior numerical and spatial correctness on compositional image
generation benchmarks. Project page: https://blobgen-2d.github.io.