FRAP: 適応プロンプト重み付けを用いた忠実かつリアルなテキストから画像への生成
FRAP: Faithful and Realistic Text-to-Image Generation with Adaptive Prompt Weighting
August 21, 2024
著者: Liyao Jiang, Negar Hassanpour, Mohammad Salameh, Mohan Sai Singamsetti, Fengyu Sun, Wei Lu, Di Niu
cs.AI
要旨
テキストから画像(T2I)拡散モデルは、テキストプロンプトを与えられた際に高品質な画像を生成する能力を印象的に示しています。しかしながら、プロンプトと画像の整合性を確保することは依然として大きな課題であり、つまり、プロンプトの意味に忠実に整合する画像を生成することです。最近の研究では、潜在コードを最適化することで忠実性を向上させようと試みていますが、これにより潜在コードが分布外に逸脱して非現実的な画像が生成される可能性があります。本論文では、生成された画像のプロンプトとの整合性と信憑性を向上させるために、適応的にプロンプトの各トークンの重みを調整する単純で効果的なアプローチであるFRAPを提案します。オブジェクトの存在を促進し、オブジェクト修飾子のペアの結合を奨励する統一された目的関数を最小化することにより、各トークンの重み係数を適応的に更新するオンラインアルゴリズムを設計します。包括的な評価を通じて、FRAPが複雑なデータセットからのプロンプトに対するプロンプト画像の整合性が著しく向上させ、最近の潜在コード最適化手法と比較して平均待ち時間が短く、例えば、COCO-SubjectデータセットにおいてD&Bより4秒速いことを示します。さらに、視覚的比較とCLIP-IQA-Realメトリックの評価を通じて、FRAPがプロンプト画像の整合性を向上させるだけでなく、現実的な外観を持つより信頼性の高い画像を生成することを示します。また、FRAPをプロンプト再構築LLMと組み合わせて劣化したプロンプト画像の整合性を回復することを探究し、プロンプト画像の整合性と画像品質の両方で改善が見られることを観察します。
English
Text-to-image (T2I) diffusion models have demonstrated impressive
capabilities in generating high-quality images given a text prompt. However,
ensuring the prompt-image alignment remains a considerable challenge, i.e.,
generating images that faithfully align with the prompt's semantics. Recent
works attempt to improve the faithfulness by optimizing the latent code, which
potentially could cause the latent code to go out-of-distribution and thus
produce unrealistic images. In this paper, we propose FRAP, a simple, yet
effective approach based on adaptively adjusting the per-token prompt weights
to improve prompt-image alignment and authenticity of the generated images. We
design an online algorithm to adaptively update each token's weight
coefficient, which is achieved by minimizing a unified objective function that
encourages object presence and the binding of object-modifier pairs. Through
extensive evaluations, we show FRAP generates images with significantly higher
prompt-image alignment to prompts from complex datasets, while having a lower
average latency compared to recent latent code optimization methods, e.g., 4
seconds faster than D&B on the COCO-Subject dataset. Furthermore, through
visual comparisons and evaluation on the CLIP-IQA-Real metric, we show that
FRAP not only improves prompt-image alignment but also generates more authentic
images with realistic appearances. We also explore combining FRAP with prompt
rewriting LLM to recover their degraded prompt-image alignment, where we
observe improvements in both prompt-image alignment and image quality.Summary
AI-Generated Summary