任意のシーンで、どこでも何でも生成する
Generate Anything Anywhere in Any Scene
June 29, 2023
著者: Yuheng Li, Haotian Liu, Yangming Wen, Yong Jae Lee
cs.AI
要旨
テキストから画像への拡散モデルは、その多様な分野への広範な適用可能性から大きな注目を集めています。しかし、パーソナライズされたオブジェクト生成のための制御可能なモデルの作成には依然として課題が残っています。本論文では、まず既存のパーソナライズド生成モデルにおけるエンタングルメント問題を特定し、次に拡散モデルがオブジェクトの同一性のみに焦点を当てるよう導く、シンプルで効率的なデータ拡張トレーニング戦略を提案します。事前学習済みの制御可能な拡散モデルからプラグアンドプレイのアダプタ層を挿入することで、生成される各パーソナライズドオブジェクトの位置とサイズを制御する能力を獲得します。推論時には、生成画像の品質と忠実度を維持するための地域ガイドサンプリング技術を提案します。本手法は、パーソナライズドオブジェクトに対して同等または優れた忠実度を達成し、現実的でパーソナライズされた画像を生成可能な、堅牢で汎用的かつ制御可能なテキストから画像への拡散モデルを実現します。本アプローチは、芸術、エンターテイメント、広告デザインなど、さまざまな応用分野において大きな可能性を示しています。
English
Text-to-image diffusion models have attracted considerable interest due to
their wide applicability across diverse fields. However, challenges persist in
creating controllable models for personalized object generation. In this paper,
we first identify the entanglement issues in existing personalized generative
models, and then propose a straightforward and efficient data augmentation
training strategy that guides the diffusion model to focus solely on object
identity. By inserting the plug-and-play adapter layers from a pre-trained
controllable diffusion model, our model obtains the ability to control the
location and size of each generated personalized object. During inference, we
propose a regionally-guided sampling technique to maintain the quality and
fidelity of the generated images. Our method achieves comparable or superior
fidelity for personalized objects, yielding a robust, versatile, and
controllable text-to-image diffusion model that is capable of generating
realistic and personalized images. Our approach demonstrates significant
potential for various applications, such as those in art, entertainment, and
advertising design.