FlashFace: Personalisierung von menschlichen Bildern mit hochwertiger Identitätserhaltung
FlashFace: Human Image Personalization with High-fidelity Identity Preservation
March 25, 2024
Autoren: Shilong Zhang, Lianghua Huang, Xi Chen, Yifei Zhang, Zhi-Fan Wu, Yutong Feng, Wei Wang, Yujun Shen, Yu Liu, Ping Luo
cs.AI
Zusammenfassung
Diese Arbeit präsentiert FlashFace, ein praktisches Werkzeug, mit dem Benutzer ihre eigenen Fotos mühelos personalisieren können, indem sie ein oder wenige Referenzgesichtsbilder und eine Textaufforderung bereitstellen. Unser Ansatz unterscheidet sich von bestehenden Methoden zur menschlichen Fotopersonalisierung durch eine höhere Treue bei der Identitätserhaltung und eine bessere Befolgung von Anweisungen, die von zwei subtilen Designs profitieren. Erstens codieren wir die Gesichtsidentität in eine Reihe von Merkmalskarten anstelle eines Bildtokens wie in früheren Arbeiten, was es dem Modell ermöglicht, mehr Details der Referenzgesichter (z. B. Narben, Tätowierungen und Gesichtsform) beizubehalten. Zweitens führen wir eine entwirrte Integrationsstrategie ein, um die Text- und Bildanleitung während des Text-zu-Bild-Generierungsprozesses auszubalancieren und den Konflikt zwischen den Referenzgesichtern und den Textaufforderungen (z. B. Personalisierung eines Erwachsenen zu einem "Kind" oder einem "Älteren") zu mildern. Umfangreiche experimentelle Ergebnisse demonstrieren die Wirksamkeit unserer Methode in verschiedenen Anwendungen, einschließlich der Personalisierung von menschlichen Bildern, des Gesichtsaustauschs unter Sprachanweisungen, der Umwandlung virtueller Charaktere in reale Personen usw. Projektseite: https://jshilong.github.io/flashface-page.
English
This work presents FlashFace, a practical tool with which users can easily
personalize their own photos on the fly by providing one or a few reference
face images and a text prompt. Our approach is distinguishable from existing
human photo customization methods by higher-fidelity identity preservation and
better instruction following, benefiting from two subtle designs. First, we
encode the face identity into a series of feature maps instead of one image
token as in prior arts, allowing the model to retain more details of the
reference faces (e.g., scars, tattoos, and face shape ). Second, we introduce a
disentangled integration strategy to balance the text and image guidance during
the text-to-image generation process, alleviating the conflict between the
reference faces and the text prompts (e.g., personalizing an adult into a
"child" or an "elder"). Extensive experimental results demonstrate the
effectiveness of our method on various applications, including human image
personalization, face swapping under language prompts, making virtual
characters into real people, etc. Project Page:
https://jshilong.github.io/flashface-page.Summary
AI-Generated Summary