密なブロブ表現を用いた構成的テキスト画像生成
Compositional Text-to-Image Generation with Dense Blob Representations
May 14, 2024
著者: Weili Nie, Sifei Liu, Morteza Mardani, Chao Liu, Benjamin Eckart, Arash Vahdat
cs.AI
要旨
既存のテキストから画像を生成するモデルは、複雑なテキストプロンプトに従うことに苦労しており、より良い制御性のための追加の基盤となる入力が必要とされています。本研究では、シーンを視覚的プリミティブ(高密度なブロブ表現として表される)に分解することを提案します。これらのブロブ表現は、シーンの詳細な情報を含みながらも、モジュール化され、人間が解釈しやすく、構築が容易です。ブロブ表現に基づいて、BlobGENと呼ばれるブロブに基づいたテキストから画像を生成する拡散モデルを開発し、構成的な生成を実現します。特に、ブロブ表現と視覚的特徴の融合を解きほぐすために、新しいマスク付きクロスアテンションモジュールを導入します。大規模言語モデル(LLM)の構成的能力を活用するために、テキストプロンプトからブロブ表現を生成する新しいインコンテキスト学習アプローチを導入します。私たちの広範な実験により、BlobGENがMS-COCOにおいて優れたゼロショット生成品質とレイアウトガイド付き制御性を達成することが示されました。LLMによって拡張された場合、私たちの手法は構成的画像生成ベンチマークにおいて優れた数値的および空間的正確性を示します。プロジェクトページ: https://blobgen-2d.github.io。
English
Existing text-to-image models struggle to follow complex text prompts,
raising the need for extra grounding inputs for better controllability. In this
work, we propose to decompose a scene into visual primitives - denoted as dense
blob representations - that contain fine-grained details of the scene while
being modular, human-interpretable, and easy-to-construct. Based on blob
representations, we develop a blob-grounded text-to-image diffusion model,
termed BlobGEN, for compositional generation. Particularly, we introduce a new
masked cross-attention module to disentangle the fusion between blob
representations and visual features. To leverage the compositionality of large
language models (LLMs), we introduce a new in-context learning approach to
generate blob representations from text prompts. Our extensive experiments show
that BlobGEN achieves superior zero-shot generation quality and better
layout-guided controllability on MS-COCO. When augmented by LLMs, our method
exhibits superior numerical and spatial correctness on compositional image
generation benchmarks. Project page: https://blobgen-2d.github.io.Summary
AI-Generated Summary