FlashFace: Personalizzazione di immagini umane con preservazione ad alta fedeltà dell'identità

Abstract

Questo lavoro presenta FlashFace, uno strumento pratico con cui gli utenti possono personalizzare facilmente le proprie foto al volo fornendo una o poche immagini di riferimento del volto e un prompt testuale. Il nostro approccio si distingue dai metodi esistenti di personalizzazione delle foto umane grazie a una conservazione dell'identità a fedeltà più elevata e a un migliore rispetto delle istruzioni, beneficiando di due design sottili. In primo luogo, codifichiamo l'identità del volto in una serie di mappe di caratteristiche invece di un singolo token immagine come nelle tecniche precedenti, consentendo al modello di mantenere più dettagli dei volti di riferimento (ad esempio, cicatrici, tatuaggi e forma del viso). In secondo luogo, introduciamo una strategia di integrazione disaccoppiata per bilanciare la guida del testo e dell'immagine durante il processo di generazione da testo a immagine, alleviando il conflitto tra i volti di riferimento e i prompt testuali (ad esempio, personalizzare un adulto in un "bambino" o un "anziano"). I risultati sperimentali estesi dimostrano l'efficacia del nostro metodo in varie applicazioni, tra cui la personalizzazione delle immagini umane, lo scambio di volti sotto prompt linguistici, la trasformazione di personaggi virtuali in persone reali, ecc. Pagina del progetto: https://jshilong.github.io/flashface-page.

English

This work presents FlashFace, a practical tool with which users can easily personalize their own photos on the fly by providing one or a few reference face images and a text prompt. Our approach is distinguishable from existing human photo customization methods by higher-fidelity identity preservation and better instruction following, benefiting from two subtle designs. First, we encode the face identity into a series of feature maps instead of one image token as in prior arts, allowing the model to retain more details of the reference faces (e.g., scars, tattoos, and face shape ). Second, we introduce a disentangled integration strategy to balance the text and image guidance during the text-to-image generation process, alleviating the conflict between the reference faces and the text prompts (e.g., personalizing an adult into a "child" or an "elder"). Extensive experimental results demonstrate the effectiveness of our method on various applications, including human image personalization, face swapping under language prompts, making virtual characters into real people, etc. Project Page: https://jshilong.github.io/flashface-page.

FlashFace: Personalizzazione di immagini umane con preservazione ad alta fedeltà dell'identità

FlashFace: Human Image Personalization with High-fidelity Identity Preservation

Abstract

Support