グラウンディングされたテキストから画像への合成とアテンションの再フォーカス
Grounded Text-to-Image Synthesis with Attention Refocusing
June 8, 2023
著者: Quynh Phung, Songwei Ge, Jia-Bin Huang
cs.AI
要旨
大規模なテキスト-画像ペアデータセットで学習された拡散モデルによって推進され、テキストから画像への合成手法は説得力のある結果を示しています。しかし、プロンプトに複数のオブジェクト、属性、空間構成が含まれる場合、これらのモデルは依然としてテキストプロンプトを正確に追従するのに失敗します。本論文では、拡散モデルのクロスアテンション層とセルフアテンション層の両方に潜在的な原因を特定します。サンプリングプロセス中に与えられたレイアウトに従ってアテンションマップを再フォーカスするための2つの新しい損失関数を提案します。大規模言語モデルによって合成されたレイアウトを使用して、DrawBenchとHRSベンチマークで包括的な実験を行い、提案した損失関数が既存のテキストから画像への手法に容易かつ効果的に統合でき、生成された画像とテキストプロンプトの整合性を一貫して向上させることを示します。
English
Driven by scalable diffusion models trained on large-scale paired text-image
datasets, text-to-image synthesis methods have shown compelling results.
However, these models still fail to precisely follow the text prompt when
multiple objects, attributes, and spatial compositions are involved in the
prompt. In this paper, we identify the potential reasons in both the
cross-attention and self-attention layers of the diffusion model. We propose
two novel losses to refocus the attention maps according to a given layout
during the sampling process. We perform comprehensive experiments on the
DrawBench and HRS benchmarks using layouts synthesized by Large Language
Models, showing that our proposed losses can be integrated easily and
effectively into existing text-to-image methods and consistently improve their
alignment between the generated images and the text prompts.