ChatPaper.aiChatPaper

StableIdentity: 初見で誰でもどこにでも挿入する技術

StableIdentity: Inserting Anybody into Anywhere at First Sight

January 29, 2024
著者: Qinghe Wang, Xu Jia, Xiaomin Li, Taiqing Li, Liqian Ma, Yunzhi Zhuge, Huchuan Lu
cs.AI

要旨

大規模な事前学習済みテキスト画像生成モデルの最近の進展により、高品質な人間中心の生成が前例のない能力を示しています。しかし、顔の同一性をカスタマイズすることは依然として困難な問題です。既存の方法では、トレーニング中に各被写体の複数の画像を使用しても、安定した同一性の保持と柔軟な編集性を保証できません。本研究では、たった1枚の顔画像で同一性を一貫して再文脈化できるStableIdentityを提案します。具体的には、顔エンコーダと同一性事前分布を使用して入力顔をエンコードし、その後、有名人の名前から構築された編集可能な事前分布を持つ空間に顔表現を配置します。同一性事前分布と編集可能性事前分布を組み込むことで、学習された同一性をさまざまな文脈でどこにでも注入できます。さらに、入力顔のピクセルレベルの知覚を向上させ、生成の多様性を維持するために、マスク付き二段階拡散損失を設計しました。広範な実験により、本手法が従来のカスタマイズ手法を凌駕することが示されています。さらに、学習された同一性は、ControlNetなどの既存のモジュールと柔軟に組み合わせることができます。特に、私たちの知る限り、単一画像から学習した同一性を微調整なしで直接ビデオ/3D生成に注入するのは初めてです。提案するStableIdentityは、画像、ビデオ、3Dのカスタマイズ生成モデルを統合するための重要な一歩であると信じています。
English
Recent advances in large pretrained text-to-image models have shown unprecedented capabilities for high-quality human-centric generation, however, customizing face identity is still an intractable problem. Existing methods cannot ensure stable identity preservation and flexible editability, even with several images for each subject during training. In this work, we propose StableIdentity, which allows identity-consistent recontextualization with just one face image. More specifically, we employ a face encoder with an identity prior to encode the input face, and then land the face representation into a space with an editable prior, which is constructed from celeb names. By incorporating identity prior and editability prior, the learned identity can be injected anywhere with various contexts. In addition, we design a masked two-phase diffusion loss to boost the pixel-level perception of the input face and maintain the diversity of generation. Extensive experiments demonstrate our method outperforms previous customization methods. In addition, the learned identity can be flexibly combined with the off-the-shelf modules such as ControlNet. Notably, to the best knowledge, we are the first to directly inject the identity learned from a single image into video/3D generation without finetuning. We believe that the proposed StableIdentity is an important step to unify image, video, and 3D customized generation models.
PDF192December 15, 2024