ドメイン非依存型チューニングエンコーダによるテキストから画像モデルの高速パーソナライゼーション
Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image Models
July 13, 2023
著者: Moab Arar, Rinon Gal, Yuval Atzmon, Gal Chechik, Daniel Cohen-Or, Ariel Shamir, Amit H. Bermano
cs.AI
要旨
テキストから画像(T2I)のパーソナライゼーションは、ユーザーが自然言語プロンプトに自身の視覚的概念を組み込むことで、創造的な画像生成プロセスを導くことを可能にします。最近、エンコーダベースの技術が新しい効果的なアプローチとして登場し、複数の画像や長時間のトレーニングを必要とせずにT2Iパーソナライゼーションを実現しています。しかし、既存のエンコーダのほとんどは単一クラスのドメインに限定されており、多様な概念を扱う能力が制限されています。本研究では、専門的なデータセットやパーソナライズされた概念に関する事前情報を必要としない、ドメインに依存しない手法を提案します。新たなコントラスティブベースの正則化技術を導入し、ターゲット概念の特性への忠実度を維持しながら、予測された埋め込みを潜在空間の編集可能な領域に近づけるために、予測されたトークンを既存のCLIPトークンに近づけます。実験結果は、本手法の有効性を示し、正則化されていないモデルによって予測されたトークンよりも、学習されたトークンがより意味的であることを示しています。これにより、従来の手法よりも柔軟でありながら、最先端の性能を達成するより良い表現が実現されます。
English
Text-to-image (T2I) personalization allows users to guide the creative image
generation process by combining their own visual concepts in natural language
prompts. Recently, encoder-based techniques have emerged as a new effective
approach for T2I personalization, reducing the need for multiple images and
long training times. However, most existing encoders are limited to a
single-class domain, which hinders their ability to handle diverse concepts. In
this work, we propose a domain-agnostic method that does not require any
specialized dataset or prior information about the personalized concepts. We
introduce a novel contrastive-based regularization technique to maintain high
fidelity to the target concept characteristics while keeping the predicted
embeddings close to editable regions of the latent space, by pushing the
predicted tokens toward their nearest existing CLIP tokens. Our experimental
results demonstrate the effectiveness of our approach and show how the learned
tokens are more semantic than tokens predicted by unregularized models. This
leads to a better representation that achieves state-of-the-art performance
while being more flexible than previous methods.