FlashFace: Personalización de imágenes humanas con preservación de identidad de alta fidelidad
FlashFace: Human Image Personalization with High-fidelity Identity Preservation
March 25, 2024
Autores: Shilong Zhang, Lianghua Huang, Xi Chen, Yifei Zhang, Zhi-Fan Wu, Yutong Feng, Wei Wang, Yujun Shen, Yu Liu, Ping Luo
cs.AI
Resumen
Este trabajo presenta FlashFace, una herramienta práctica que permite a los usuarios personalizar fácilmente sus propias fotos al instante al proporcionar una o varias imágenes de referencia de rostros y un texto descriptivo. Nuestro enfoque se distingue de los métodos existentes de personalización de fotos humanas por una mayor fidelidad en la preservación de la identidad y un mejor seguimiento de las instrucciones, gracias a dos diseños sutiles. En primer lugar, codificamos la identidad facial en una serie de mapas de características en lugar de un solo token de imagen como en trabajos anteriores, lo que permite al modelo retener más detalles de los rostros de referencia (por ejemplo, cicatrices, tatuajes y forma del rostro). En segundo lugar, introducimos una estrategia de integración desacoplada para equilibrar la guía de texto e imagen durante el proceso de generación de imágenes a partir de texto, mitigando el conflicto entre los rostros de referencia y los textos descriptivos (por ejemplo, personalizar a un adulto como un "niño" o un "anciano"). Los resultados experimentales extensos demuestran la eficacia de nuestro método en diversas aplicaciones, incluyendo la personalización de imágenes humanas, el intercambio de rostros bajo indicaciones lingüísticas, la transformación de personajes virtuales en personas reales, etc. Página del proyecto: https://jshilong.github.io/flashface-page.
English
This work presents FlashFace, a practical tool with which users can easily
personalize their own photos on the fly by providing one or a few reference
face images and a text prompt. Our approach is distinguishable from existing
human photo customization methods by higher-fidelity identity preservation and
better instruction following, benefiting from two subtle designs. First, we
encode the face identity into a series of feature maps instead of one image
token as in prior arts, allowing the model to retain more details of the
reference faces (e.g., scars, tattoos, and face shape ). Second, we introduce a
disentangled integration strategy to balance the text and image guidance during
the text-to-image generation process, alleviating the conflict between the
reference faces and the text prompts (e.g., personalizing an adult into a
"child" or an "elder"). Extensive experimental results demonstrate the
effectiveness of our method on various applications, including human image
personalization, face swapping under language prompts, making virtual
characters into real people, etc. Project Page:
https://jshilong.github.io/flashface-page.Summary
AI-Generated Summary