ChatPaper.aiChatPaper

FlashFace: Menselijke beeldpersonalisatie met hoogwaardige identiteitsbehoud

FlashFace: Human Image Personalization with High-fidelity Identity Preservation

March 25, 2024
Auteurs: Shilong Zhang, Lianghua Huang, Xi Chen, Yifei Zhang, Zhi-Fan Wu, Yutong Feng, Wei Wang, Yujun Shen, Yu Liu, Ping Luo
cs.AI

Samenvatting

Dit werk presenteert FlashFace, een praktisch hulpmiddel waarmee gebruikers hun eigen foto's gemakkelijk en snel kunnen personaliseren door een of enkele referentiegezichtsafbeeldingen en een tekstprompt te verstrekken. Onze aanpak onderscheidt zich van bestaande methoden voor het aanpassen van menselijke foto's door een hogere betrouwbaarheid in identiteitsbehoud en beter instructievolgen, wat voortkomt uit twee subtiele ontwerpen. Ten eerste coderen we de gezichtsidentiteit in een reeks kenmerkkaarten in plaats van één beeldtoken zoals in eerdere technieken, waardoor het model meer details van de referentiegezichten kan behouden (bijv. littekens, tatoeages en gezichtsvorm). Ten tweede introduceren we een ontvlochten integratiestrategie om de tekst- en beeldbegeleiding in balans te brengen tijdens het tekst-naar-beeld generatieproces, waardoor het conflict tussen de referentiegezichten en de tekstprompts wordt verlicht (bijv. het personaliseren van een volwassene naar een "kind" of een "ouderling"). Uitgebreide experimentele resultaten tonen de effectiviteit van onze methode aan in diverse toepassingen, waaronder het personaliseren van menselijke afbeeldingen, gezichtsverwisseling onder taalprompts, het omzetten van virtuele personages in echte mensen, enz. Projectpagina: https://jshilong.github.io/flashface-page.
English
This work presents FlashFace, a practical tool with which users can easily personalize their own photos on the fly by providing one or a few reference face images and a text prompt. Our approach is distinguishable from existing human photo customization methods by higher-fidelity identity preservation and better instruction following, benefiting from two subtle designs. First, we encode the face identity into a series of feature maps instead of one image token as in prior arts, allowing the model to retain more details of the reference faces (e.g., scars, tattoos, and face shape ). Second, we introduce a disentangled integration strategy to balance the text and image guidance during the text-to-image generation process, alleviating the conflict between the reference faces and the text prompts (e.g., personalizing an adult into a "child" or an "elder"). Extensive experimental results demonstrate the effectiveness of our method on various applications, including human image personalization, face swapping under language prompts, making virtual characters into real people, etc. Project Page: https://jshilong.github.io/flashface-page.
PDF221February 8, 2026