ChatPaper.aiChatPaper

PhotoVerse: Anpassungsfreie Bildindividualisierung mit Text-zu-Bild-Diffusionsmodellen

PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion Models

September 11, 2023
Autoren: Li Chen, Mengyi Zhao, Yiheng Liu, Mingxu Ding, Yangyang Song, Shizun Wang, Xu Wang, Hao Yang, Jing Liu, Kang Du, Min Zheng
cs.AI

Zusammenfassung

Die personalisierte Text-zu-Bild-Generierung hat sich als leistungsstarkes und gefragtes Werkzeug etabliert, das Nutzern ermöglicht, maßgeschneiderte Bilder basierend auf ihren spezifischen Konzepten und Eingabeaufforderungen zu erstellen. Allerdings stoßen bestehende Ansätze zur Personalisierung auf mehrere Herausforderungen, darunter lange Anpassungszeiten, hohe Speicheranforderungen, die Notwendigkeit mehrerer Eingabebilder pro Identität sowie Einschränkungen bei der Bewahrung der Identität und der Bearbeitbarkeit. Um diese Hindernisse zu überwinden, präsentieren wir PhotoVerse, eine innovative Methode, die einen zweigleisigen Konditionierungsmechanismus in den Bereichen Text und Bild integriert und somit eine effektive Kontrolle über den Bildgenerierungsprozess bietet. Darüber hinaus führen wir den Gesichtsidentitätsverlust als neuartige Komponente ein, um die Bewahrung der Identität während des Trainings zu verbessern. Bemerkenswerterweise eliminiert unser vorgeschlagenes PhotoVerse die Notwendigkeit einer Anpassung zur Testzeit und stützt sich ausschließlich auf ein einzelnes Gesichtsfoto der Zielidentität, wodurch die mit der Bildgenerierung verbundenen Ressourcenkosten erheblich reduziert werden. Nach einer einzigen Trainingsphase ermöglicht unser Ansatz die Generierung hochwertiger Bilder in nur wenigen Sekunden. Darüber hinaus kann unsere Methode vielfältige Bilder erzeugen, die verschiedene Szenen und Stile umfassen. Die umfangreiche Evaluation zeigt die überlegene Leistung unseres Ansatzes, der die doppelten Ziele der Identitätsbewahrung und der Bearbeitbarkeit erreicht. Projektseite: https://photoverse2d.github.io/
English
Personalized text-to-image generation has emerged as a powerful and sought-after tool, empowering users to create customized images based on their specific concepts and prompts. However, existing approaches to personalization encounter multiple challenges, including long tuning times, large storage requirements, the necessity for multiple input images per identity, and limitations in preserving identity and editability. To address these obstacles, we present PhotoVerse, an innovative methodology that incorporates a dual-branch conditioning mechanism in both text and image domains, providing effective control over the image generation process. Furthermore, we introduce facial identity loss as a novel component to enhance the preservation of identity during training. Remarkably, our proposed PhotoVerse eliminates the need for test time tuning and relies solely on a single facial photo of the target identity, significantly reducing the resource cost associated with image generation. After a single training phase, our approach enables generating high-quality images within only a few seconds. Moreover, our method can produce diverse images that encompass various scenes and styles. The extensive evaluation demonstrates the superior performance of our approach, which achieves the dual objectives of preserving identity and facilitating editability. Project page: https://photoverse2d.github.io/
PDF506December 15, 2024