PhotoVerse:テキストから画像への拡散モデルを用いたチューニング不要の画像カスタマイズ
PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion Models
September 11, 2023
著者: Li Chen, Mengyi Zhao, Yiheng Liu, Mingxu Ding, Yangyang Song, Shizun Wang, Xu Wang, Hao Yang, Jing Liu, Kang Du, Min Zheng
cs.AI
要旨
パーソナライズされたテキストから画像への生成は、強力で需要の高いツールとして登場し、ユーザーが特定のコンセプトやプロンプトに基づいてカスタマイズされた画像を作成できるようにしました。しかし、既存のパーソナライゼーション手法は、長いチューニング時間、大容量のストレージ要件、アイデンティティごとに複数の入力画像が必要であること、アイデンティティの保持と編集可能性の制限など、複数の課題に直面しています。これらの障害に対処するため、我々はPhotoVerseを提案します。これは、テキストと画像の両方のドメインでデュアルブランチの条件付けメカニズムを組み込んだ革新的な方法論であり、画像生成プロセスを効果的に制御します。さらに、トレーニング中にアイデンティティを保持するための新しいコンポーネントとして、顔のアイデンティティ損失を導入します。注目すべきは、提案するPhotoVerseがテスト時のチューニングを不要とし、ターゲットアイデンティティの単一の顔写真のみに依存することで、画像生成に関連するリソースコストを大幅に削減することです。単一のトレーニングフェーズの後、我々のアプローチはわずか数秒で高品質な画像を生成できるようにします。さらに、我々の手法は、さまざまなシーンやスタイルを含む多様な画像を生成することができます。広範な評価により、アイデンティティの保持と編集可能性の促進という二つの目的を達成する我々のアプローチの優れた性能が実証されています。プロジェクトページ: https://photoverse2d.github.io/
English
Personalized text-to-image generation has emerged as a powerful and
sought-after tool, empowering users to create customized images based on their
specific concepts and prompts. However, existing approaches to personalization
encounter multiple challenges, including long tuning times, large storage
requirements, the necessity for multiple input images per identity, and
limitations in preserving identity and editability. To address these obstacles,
we present PhotoVerse, an innovative methodology that incorporates a
dual-branch conditioning mechanism in both text and image domains, providing
effective control over the image generation process. Furthermore, we introduce
facial identity loss as a novel component to enhance the preservation of
identity during training. Remarkably, our proposed PhotoVerse eliminates the
need for test time tuning and relies solely on a single facial photo of the
target identity, significantly reducing the resource cost associated with image
generation. After a single training phase, our approach enables generating
high-quality images within only a few seconds. Moreover, our method can produce
diverse images that encompass various scenes and styles. The extensive
evaluation demonstrates the superior performance of our approach, which
achieves the dual objectives of preserving identity and facilitating
editability. Project page: https://photoverse2d.github.io/