ChatPaper.aiChatPaper

Celeb Basisを用いた拡散モデルへの任意人物の挿入

Inserting Anybody in Diffusion Models via Celeb Basis

June 1, 2023
著者: Ge Yuan, Xiaodong Cun, Yong Zhang, Maomao Li, Chenyang Qi, Xintao Wang, Ying Shan, Huicheng Zheng
cs.AI

要旨

事前学習済みの大規模テキスト-to-画像モデル(例:Stable Diffusion)をカスタマイズし、ユーザー自身のような革新的な概念を生成するニーズが高まっています。しかし、従来のカスタマイズ手法で追加された新しい概念は、トレーニング中に複数の画像が与えられた場合でも、元の概念に比べて組み合わせ能力が弱い傾向があります。そこで我々は、たった1枚の顔写真と1024個の学習可能なパラメータを用いて、3分以内に事前学習済みの拡散モデルに個人をシームレスに統合する新しいパーソナライゼーション手法を提案します。これにより、テキストプロンプトから、この人物がどんなポーズや位置で、誰とでも相互作用し、想像しうるあらゆることを行う驚くべき画像を簡単に生成できます。これを実現するため、まず事前学習済みの大規模テキストエンコーダの埋め込み空間から、明確に定義された有名人基底を分析・構築します。次に、目標となる個人の顔写真が与えられた場合、この基底の重みを最適化し、他の全てのパラメータを固定することで、その個人独自の埋め込みを生成します。提案された有名人基底によって強化された我々のカスタマイズモデルでは、新しいアイデンティティが従来のパーソナライゼーション手法よりも優れた概念組み合わせ能力を示します。さらに、我々のモデルは複数の新しいアイデンティティを同時に学習し、それらが互いに相互作用することも可能であり、これは従来のカスタマイズモデルでは実現できなかったものです。コードは公開予定です。
English
Exquisite demand exists for customizing the pretrained large text-to-image model, e.g., Stable Diffusion, to generate innovative concepts, such as the users themselves. However, the newly-added concept from previous customization methods often shows weaker combination abilities than the original ones even given several images during training. We thus propose a new personalization method that allows for the seamless integration of a unique individual into the pre-trained diffusion model using just one facial photograph and only 1024 learnable parameters under 3 minutes. So as we can effortlessly generate stunning images of this person in any pose or position, interacting with anyone and doing anything imaginable from text prompts. To achieve this, we first analyze and build a well-defined celeb basis from the embedding space of the pre-trained large text encoder. Then, given one facial photo as the target identity, we generate its own embedding by optimizing the weight of this basis and locking all other parameters. Empowered by the proposed celeb basis, the new identity in our customized model showcases a better concept combination ability than previous personalization methods. Besides, our model can also learn several new identities at once and interact with each other where the previous customization model fails to. The code will be released.
PDF33December 15, 2024