PhotoVerse: Afstemmingsvrije beeldaanpassing met tekst-naar-beeld diffusiemodellen
PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion Models
September 11, 2023
Auteurs: Li Chen, Mengyi Zhao, Yiheng Liu, Mingxu Ding, Yangyang Song, Shizun Wang, Xu Wang, Hao Yang, Jing Liu, Kang Du, Min Zheng
cs.AI
Samenvatting
Gepersonaliseerde tekst-naar-beeldgeneratie is naar voren gekomen als een krachtig en gewild hulpmiddel, waarmee gebruikers aangepaste afbeeldingen kunnen creëren op basis van hun specifieke concepten en prompts. Bestaande benaderingen voor personalisatie kampen echter met meerdere uitdagingen, waaronder lange afstemmingstijden, grote opslagvereisten, de noodzaak voor meerdere invoerafbeeldingen per identiteit, en beperkingen in het behoud van identiteit en bewerkbaarheid. Om deze obstakels aan te pakken, presenteren wij PhotoVerse, een innovatieve methodologie die een dual-branch conditioneringmechanisme incorporeert in zowel tekst- als beeld domeinen, waardoor effectieve controle over het beeldgeneratieproces wordt geboden. Daarnaast introduceren wij gezichtsidentiteitsverlies als een nieuw component om het behoud van identiteit tijdens de training te verbeteren. Opmerkelijk is dat ons voorgestelde PhotoVerse de noodzaak voor afstemming tijdens de testfase elimineert en uitsluitend vertrouwt op een enkele gezichtsfoto van de doelidentiteit, waardoor de resourcekosten die gepaard gaan met beeldgeneratie aanzienlijk worden verminderd. Na een enkele trainingsfase maakt onze benadering het mogelijk om binnen slechts enkele seconden hoogwaardige afbeeldingen te genereren. Bovendien kan onze methode diverse afbeeldingen produceren die verschillende scènes en stijlen omvatten. De uitgebreide evaluatie toont de superieure prestaties van onze benadering aan, die de dubbele doelstellingen van het behoud van identiteit en het faciliteren van bewerkbaarheid bereikt. Projectpagina: https://photoverse2d.github.io/
English
Personalized text-to-image generation has emerged as a powerful and
sought-after tool, empowering users to create customized images based on their
specific concepts and prompts. However, existing approaches to personalization
encounter multiple challenges, including long tuning times, large storage
requirements, the necessity for multiple input images per identity, and
limitations in preserving identity and editability. To address these obstacles,
we present PhotoVerse, an innovative methodology that incorporates a
dual-branch conditioning mechanism in both text and image domains, providing
effective control over the image generation process. Furthermore, we introduce
facial identity loss as a novel component to enhance the preservation of
identity during training. Remarkably, our proposed PhotoVerse eliminates the
need for test time tuning and relies solely on a single facial photo of the
target identity, significantly reducing the resource cost associated with image
generation. After a single training phase, our approach enables generating
high-quality images within only a few seconds. Moreover, our method can produce
diverse images that encompass various scenes and styles. The extensive
evaluation demonstrates the superior performance of our approach, which
achieves the dual objectives of preserving identity and facilitating
editability. Project page: https://photoverse2d.github.io/