ChatPaper.aiChatPaper

IFAdapter:グラウンディングされたテキストから画像への生成のためのインスタンス特徴制御

IFAdapter: Instance Feature Control for Grounded Text-to-Image Generation

September 12, 2024
著者: Yinwei Wu, Xianpan Zhou, Bing Ma, Xuefeng Su, Kai Ma, Xinchao Wang
cs.AI

要旨

テキストから画像への変換(T2I)拡散モデルは、個々のインスタンスの視覚的に魅力的な画像を生成する点で優れていますが、複数のインスタンスの特徴生成を正確に配置および制御することに苦労しています。レイアウトから画像へ(L2I)のタスクは、境界ボックスを空間制御信号として組み込むことで配置の課題に対処するために導入されましたが、依然として正確なインスタンスの特徴生成には至っていません。この課題に対処するために、私たちはインスタンス特徴生成(IFG)タスクを提案しています。IFGタスクは、生成されたインスタンスにおいて位置の正確さと特徴の忠実度の両方を確保することを目指しています。IFGタスクに対処するために、私たちはインスタンス特徴アダプタ(IFAdapter)を導入しています。IFAdapterは、外観トークンを追加し、インスタンスレベルの特徴を空間位置と整列させるためにインスタンス意味マップを利用することで、特徴描写を向上させます。IFAdapterは、プラグアンドプレイモジュールとして拡散プロセスをガイドし、さまざまなコミュニティモデルに適応可能です。評価のために、私たちはIFGベンチマークを提供し、モデルが正確な位置と特徴でインスタンスを生成する能力を客観的に比較するための検証パイプラインを開発しています。実験結果は、IFAdapterが定量的および定性的評価の両方で他のモデルを上回ることを示しています。
English
While Text-to-Image (T2I) diffusion models excel at generating visually appealing images of individual instances, they struggle to accurately position and control the features generation of multiple instances. The Layout-to-Image (L2I) task was introduced to address the positioning challenges by incorporating bounding boxes as spatial control signals, but it still falls short in generating precise instance features. In response, we propose the Instance Feature Generation (IFG) task, which aims to ensure both positional accuracy and feature fidelity in generated instances. To address the IFG task, we introduce the Instance Feature Adapter (IFAdapter). The IFAdapter enhances feature depiction by incorporating additional appearance tokens and utilizing an Instance Semantic Map to align instance-level features with spatial locations. The IFAdapter guides the diffusion process as a plug-and-play module, making it adaptable to various community models. For evaluation, we contribute an IFG benchmark and develop a verification pipeline to objectively compare models' abilities to generate instances with accurate positioning and features. Experimental results demonstrate that IFAdapter outperforms other models in both quantitative and qualitative evaluations.

Summary

AI-Generated Summary

PDF232November 16, 2024