ChatPaper.aiChatPaper

InstantID: ゼロショットID保存生成を秒単位で実現

InstantID: Zero-shot Identity-Preserving Generation in Seconds

January 15, 2024
著者: Qixun Wang, Xu Bai, Haofan Wang, Zekui Qin, Anthony Chen
cs.AI

要旨

テキストインバージョン、DreamBooth、LoRAなどの手法により、パーソナライズされた画像合成において大きな進展が見られています。しかし、これらの手法は、高いストレージ要求、長時間のファインチューニングプロセス、および複数の参照画像の必要性によって、実世界での適用性が制限されています。一方、既存のID埋め込みベースの手法は、単一のフォワード推論のみを必要としますが、多くのモデルパラメータにわたる広範なファインチューニングが必要である、コミュニティで事前学習されたモデルとの互換性がない、または高い顔の忠実度を維持できないといった課題に直面しています。これらの制限に対処するため、我々はInstantIDを紹介します。これは、強力な拡散モデルベースのソリューションです。我々のプラグアンドプレイモジュールは、単一の顔画像を使用してさまざまなスタイルでの画像パーソナライゼーションを巧みに処理し、高い忠実度を確保します。これを実現するために、我々は強力なセマンティック条件と弱い空間条件を課すことで、新しいIdentityNetを設計し、顔画像とランドマーク画像をテキストプロンプトと統合して画像生成を導きます。InstantIDは、卓越した性能と効率を示し、アイデンティティ保存が最重要視される実世界のアプリケーションにおいて非常に有益であることを証明しています。さらに、我々の研究は、SD1.5やSDXLのような人気のある事前学習済みテキスト画像拡散モデルとシームレスに統合し、適応可能なプラグインとして機能します。我々のコードと事前学習済みチェックポイントは、https://github.com/InstantID/InstantIDで利用可能になります。
English
There has been significant progress in personalized image synthesis with methods such as Textual Inversion, DreamBooth, and LoRA. Yet, their real-world applicability is hindered by high storage demands, lengthy fine-tuning processes, and the need for multiple reference images. Conversely, existing ID embedding-based methods, while requiring only a single forward inference, face challenges: they either necessitate extensive fine-tuning across numerous model parameters, lack compatibility with community pre-trained models, or fail to maintain high face fidelity. Addressing these limitations, we introduce InstantID, a powerful diffusion model-based solution. Our plug-and-play module adeptly handles image personalization in various styles using just a single facial image, while ensuring high fidelity. To achieve this, we design a novel IdentityNet by imposing strong semantic and weak spatial conditions, integrating facial and landmark images with textual prompts to steer the image generation. InstantID demonstrates exceptional performance and efficiency, proving highly beneficial in real-world applications where identity preservation is paramount. Moreover, our work seamlessly integrates with popular pre-trained text-to-image diffusion models like SD1.5 and SDXL, serving as an adaptable plugin. Our codes and pre-trained checkpoints will be available at https://github.com/InstantID/InstantID.
PDF588December 15, 2024