FlashFace: Personalização de Imagens Humanas com Preservação de Identidade de Alta Fidelidade
FlashFace: Human Image Personalization with High-fidelity Identity Preservation
March 25, 2024
Autores: Shilong Zhang, Lianghua Huang, Xi Chen, Yifei Zhang, Zhi-Fan Wu, Yutong Feng, Wei Wang, Yujun Shen, Yu Liu, Ping Luo
cs.AI
Resumo
Este trabalho apresenta o FlashFace, uma ferramenta prática com a qual os usuários podem personalizar facilmente suas próprias fotos em tempo real, fornecendo uma ou algumas imagens de referência de rosto e um prompt de texto. Nossa abordagem se distingue dos métodos existentes de personalização de fotos humanas por uma preservação de identidade de maior fidelidade e um melhor seguimento de instruções, beneficiando-se de dois designs sutis. Primeiro, codificamos a identidade facial em uma série de mapas de características, em vez de um único token de imagem como nas técnicas anteriores, permitindo que o modelo retenha mais detalhes dos rostos de referência (por exemplo, cicatrizes, tatuagens e formato do rosto). Segundo, introduzimos uma estratégia de integração desacoplada para equilibrar a orientação de texto e imagem durante o processo de geração de texto para imagem, aliviando o conflito entre os rostos de referência e os prompts de texto (por exemplo, personalizar um adulto em uma "criança" ou um "idoso"). Resultados experimentais extensivos demonstram a eficácia do nosso método em várias aplicações, incluindo personalização de imagens humanas, troca de rostos sob prompts de linguagem, transformação de personagens virtuais em pessoas reais, etc. Página do Projeto: https://jshilong.github.io/flashface-page.
English
This work presents FlashFace, a practical tool with which users can easily
personalize their own photos on the fly by providing one or a few reference
face images and a text prompt. Our approach is distinguishable from existing
human photo customization methods by higher-fidelity identity preservation and
better instruction following, benefiting from two subtle designs. First, we
encode the face identity into a series of feature maps instead of one image
token as in prior arts, allowing the model to retain more details of the
reference faces (e.g., scars, tattoos, and face shape ). Second, we introduce a
disentangled integration strategy to balance the text and image guidance during
the text-to-image generation process, alleviating the conflict between the
reference faces and the text prompts (e.g., personalizing an adult into a
"child" or an "elder"). Extensive experimental results demonstrate the
effectiveness of our method on various applications, including human image
personalization, face swapping under language prompts, making virtual
characters into real people, etc. Project Page:
https://jshilong.github.io/flashface-page.