ChatPaper.aiChatPaper

Generazione Composizionale di Immagini da Testo con Rappresentazioni Dense di Blob

Compositional Text-to-Image Generation with Dense Blob Representations

May 14, 2024
Autori: Weili Nie, Sifei Liu, Morteza Mardani, Chao Liu, Benjamin Eckart, Arash Vahdat
cs.AI

Abstract

I modelli esistenti di generazione di immagini da testo faticano a seguire prompt testuali complessi, evidenziando la necessità di input aggiuntivi per un migliore controllo. In questo lavoro, proponiamo di scomporre una scena in primitive visive - denominate rappresentazioni dense a blob - che contengono dettagli granulari della scena pur essendo modulari, interpretabili dall'uomo e facili da costruire. Basandoci sulle rappresentazioni a blob, sviluppiamo un modello di diffusione testo-immagine ancorato ai blob, denominato BlobGEN, per la generazione composizionale. In particolare, introduciamo un nuovo modulo di cross-attention mascherato per separare la fusione tra rappresentazioni a blob e caratteristiche visive. Per sfruttare la composizionalità dei grandi modelli linguistici (LLM), introduciamo un nuovo approccio di apprendimento in-context per generare rappresentazioni a blob da prompt testuali. I nostri ampi esperimenti dimostrano che BlobGEN raggiunge una qualità di generazione zero-shot superiore e un migliore controllo guidato dal layout su MS-COCO. Quando potenziato dagli LLM, il nostro metodo mostra una correttezza numerica e spaziale superiore su benchmark di generazione composizionale di immagini. Pagina del progetto: https://blobgen-2d.github.io.
English
Existing text-to-image models struggle to follow complex text prompts, raising the need for extra grounding inputs for better controllability. In this work, we propose to decompose a scene into visual primitives - denoted as dense blob representations - that contain fine-grained details of the scene while being modular, human-interpretable, and easy-to-construct. Based on blob representations, we develop a blob-grounded text-to-image diffusion model, termed BlobGEN, for compositional generation. Particularly, we introduce a new masked cross-attention module to disentangle the fusion between blob representations and visual features. To leverage the compositionality of large language models (LLMs), we introduce a new in-context learning approach to generate blob representations from text prompts. Our extensive experiments show that BlobGEN achieves superior zero-shot generation quality and better layout-guided controllability on MS-COCO. When augmented by LLMs, our method exhibits superior numerical and spatial correctness on compositional image generation benchmarks. Project page: https://blobgen-2d.github.io.
PDF171February 8, 2026