PhotoVerse : Personnalisation d'images sans réglage avec des modèles de diffusion texte-image
PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion Models
September 11, 2023
Auteurs: Li Chen, Mengyi Zhao, Yiheng Liu, Mingxu Ding, Yangyang Song, Shizun Wang, Xu Wang, Hao Yang, Jing Liu, Kang Du, Min Zheng
cs.AI
Résumé
La génération d'images personnalisées à partir de texte est apparue comme un outil puissant et très recherché, permettant aux utilisateurs de créer des images sur mesure en fonction de leurs concepts et prompts spécifiques. Cependant, les approches existantes en matière de personnalisation rencontrent plusieurs défis, notamment des temps de réglage longs, des besoins de stockage importants, la nécessité de plusieurs images d'entrée par identité, et des limitations dans la préservation de l'identité et de l'éditabilité. Pour surmonter ces obstacles, nous présentons PhotoVerse, une méthodologie innovante qui intègre un mécanisme de conditionnement à double branche dans les domaines du texte et de l'image, offrant un contrôle efficace sur le processus de génération d'images. De plus, nous introduisons une perte d'identité faciale comme composant novateur pour améliorer la préservation de l'identité pendant l'entraînement. Remarquablement, notre PhotoVerse proposé élimine le besoin de réglage au moment du test et repose uniquement sur une seule photo faciale de l'identité cible, réduisant ainsi considérablement le coût en ressources associé à la génération d'images. Après une seule phase d'entraînement, notre approche permet de générer des images de haute qualité en seulement quelques secondes. En outre, notre méthode peut produire des images variées couvrant différentes scènes et styles. L'évaluation approfondie démontre la performance supérieure de notre approche, qui atteint les deux objectifs de préserver l'identité et de faciliter l'éditabilité. Page du projet : https://photoverse2d.github.io/
English
Personalized text-to-image generation has emerged as a powerful and
sought-after tool, empowering users to create customized images based on their
specific concepts and prompts. However, existing approaches to personalization
encounter multiple challenges, including long tuning times, large storage
requirements, the necessity for multiple input images per identity, and
limitations in preserving identity and editability. To address these obstacles,
we present PhotoVerse, an innovative methodology that incorporates a
dual-branch conditioning mechanism in both text and image domains, providing
effective control over the image generation process. Furthermore, we introduce
facial identity loss as a novel component to enhance the preservation of
identity during training. Remarkably, our proposed PhotoVerse eliminates the
need for test time tuning and relies solely on a single facial photo of the
target identity, significantly reducing the resource cost associated with image
generation. After a single training phase, our approach enables generating
high-quality images within only a few seconds. Moreover, our method can produce
diverse images that encompass various scenes and styles. The extensive
evaluation demonstrates the superior performance of our approach, which
achieves the dual objectives of preserving identity and facilitating
editability. Project page: https://photoverse2d.github.io/