Génération compositionnelle d'images à partir de texte avec des représentations de blobs denses
Compositional Text-to-Image Generation with Dense Blob Representations
May 14, 2024
Auteurs: Weili Nie, Sifei Liu, Morteza Mardani, Chao Liu, Benjamin Eckart, Arash Vahdat
cs.AI
Résumé
Les modèles existants de génération d'images à partir de texte peinent à suivre des instructions textuelles complexes, ce qui soulève la nécessité d'introduire des informations supplémentaires pour améliorer la contrôlabilité. Dans ce travail, nous proposons de décomposer une scène en primitives visuelles - représentées par des blobs denses - qui contiennent des détails fins de la scène tout en étant modulaires, interprétables par l'humain et faciles à construire. Sur la base de ces représentations par blobs, nous développons un modèle de diffusion texte-image ancré par des blobs, appelé BlobGEN, pour la génération compositionnelle. Plus précisément, nous introduisons un nouveau module d'attention croisée masquée pour dissocier la fusion entre les représentations par blobs et les caractéristiques visuelles. Pour tirer parti de la compositionnalité des grands modèles de langage (LLMs), nous proposons une nouvelle approche d'apprentissage en contexte pour générer des représentations par blobs à partir d'instructions textuelles. Nos expériences approfondies montrent que BlobGEN atteint une qualité de génération zero-shot supérieure et une meilleure contrôlabilité guidée par la disposition sur MS-COCO. Lorsqu'il est augmenté par des LLMs, notre méthode démontre une supériorité en termes de justesse numérique et spatiale sur des benchmarks de génération d'images compositionnelles. Page du projet : https://blobgen-2d.github.io.
English
Existing text-to-image models struggle to follow complex text prompts,
raising the need for extra grounding inputs for better controllability. In this
work, we propose to decompose a scene into visual primitives - denoted as dense
blob representations - that contain fine-grained details of the scene while
being modular, human-interpretable, and easy-to-construct. Based on blob
representations, we develop a blob-grounded text-to-image diffusion model,
termed BlobGEN, for compositional generation. Particularly, we introduce a new
masked cross-attention module to disentangle the fusion between blob
representations and visual features. To leverage the compositionality of large
language models (LLMs), we introduce a new in-context learning approach to
generate blob representations from text prompts. Our extensive experiments show
that BlobGEN achieves superior zero-shot generation quality and better
layout-guided controllability on MS-COCO. When augmented by LLMs, our method
exhibits superior numerical and spatial correctness on compositional image
generation benchmarks. Project page: https://blobgen-2d.github.io.Summary
AI-Generated Summary