PhotoVerse: Personalizzazione delle immagini senza regolazione con modelli di diffusione da testo a immagine

Abstract

La generazione personalizzata di immagini da testo è emersa come uno strumento potente e ricercato, che consente agli utenti di creare immagini personalizzate basate sui loro concetti e prompt specifici. Tuttavia, gli approcci esistenti alla personalizzazione incontrano molteplici sfide, tra cui tempi di ottimizzazione prolungati, elevati requisiti di archiviazione, la necessità di più immagini di input per identità e limitazioni nel preservare l'identità e l'editabilità. Per affrontare questi ostacoli, presentiamo PhotoVerse, una metodologia innovativa che incorpora un meccanismo di condizionamento a doppio ramo sia nel dominio del testo che in quello delle immagini, fornendo un controllo efficace sul processo di generazione delle immagini. Inoltre, introduciamo una perdita di identità facciale come componente innovativa per migliorare la preservazione dell'identità durante l'addestramento. Notevolmente, il nostro PhotoVerse proposto elimina la necessità di ottimizzazione al momento del test e si basa esclusivamente su una singola foto facciale dell'identità target, riducendo significativamente il costo delle risorse associato alla generazione di immagini. Dopo una singola fase di addestramento, il nostro approccio consente di generare immagini di alta qualità in pochi secondi. Inoltre, il nostro metodo può produrre immagini diverse che abbracciano vari scenari e stili. La valutazione estensiva dimostra la prestazione superiore del nostro approccio, che raggiunge il duplice obiettivo di preservare l'identità e facilitare l'editabilità. Pagina del progetto: https://photoverse2d.github.io/

English

Personalized text-to-image generation has emerged as a powerful and sought-after tool, empowering users to create customized images based on their specific concepts and prompts. However, existing approaches to personalization encounter multiple challenges, including long tuning times, large storage requirements, the necessity for multiple input images per identity, and limitations in preserving identity and editability. To address these obstacles, we present PhotoVerse, an innovative methodology that incorporates a dual-branch conditioning mechanism in both text and image domains, providing effective control over the image generation process. Furthermore, we introduce facial identity loss as a novel component to enhance the preservation of identity during training. Remarkably, our proposed PhotoVerse eliminates the need for test time tuning and relies solely on a single facial photo of the target identity, significantly reducing the resource cost associated with image generation. After a single training phase, our approach enables generating high-quality images within only a few seconds. Moreover, our method can produce diverse images that encompass various scenes and styles. The extensive evaluation demonstrates the superior performance of our approach, which achieves the dual objectives of preserving identity and facilitating editability. Project page: https://photoverse2d.github.io/

PhotoVerse: Personalizzazione delle immagini senza regolazione con modelli di diffusione da testo a immagine

PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion Models

Abstract

Support