FlashFace: Personalização de Imagens Humanas com Preservação de Identidade de Alta Fidelidade

Resumo

Este trabalho apresenta o FlashFace, uma ferramenta prática com a qual os usuários podem personalizar facilmente suas próprias fotos em tempo real, fornecendo uma ou algumas imagens de referência de rosto e um prompt de texto. Nossa abordagem se distingue dos métodos existentes de personalização de fotos humanas por uma preservação de identidade de maior fidelidade e um melhor seguimento de instruções, beneficiando-se de dois designs sutis. Primeiro, codificamos a identidade facial em uma série de mapas de características, em vez de um único token de imagem como nas técnicas anteriores, permitindo que o modelo retenha mais detalhes dos rostos de referência (por exemplo, cicatrizes, tatuagens e formato do rosto). Segundo, introduzimos uma estratégia de integração desacoplada para equilibrar a orientação de texto e imagem durante o processo de geração de texto para imagem, aliviando o conflito entre os rostos de referência e os prompts de texto (por exemplo, personalizar um adulto em uma "criança" ou um "idoso"). Resultados experimentais extensivos demonstram a eficácia do nosso método em várias aplicações, incluindo personalização de imagens humanas, troca de rostos sob prompts de linguagem, transformação de personagens virtuais em pessoas reais, etc. Página do Projeto: https://jshilong.github.io/flashface-page.

English

This work presents FlashFace, a practical tool with which users can easily personalize their own photos on the fly by providing one or a few reference face images and a text prompt. Our approach is distinguishable from existing human photo customization methods by higher-fidelity identity preservation and better instruction following, benefiting from two subtle designs. First, we encode the face identity into a series of feature maps instead of one image token as in prior arts, allowing the model to retain more details of the reference faces (e.g., scars, tattoos, and face shape ). Second, we introduce a disentangled integration strategy to balance the text and image guidance during the text-to-image generation process, alleviating the conflict between the reference faces and the text prompts (e.g., personalizing an adult into a "child" or an "elder"). Extensive experimental results demonstrate the effectiveness of our method on various applications, including human image personalization, face swapping under language prompts, making virtual characters into real people, etc. Project Page: https://jshilong.github.io/flashface-page.

FlashFace: Personalização de Imagens Humanas com Preservação de Identidade de Alta Fidelidade

FlashFace: Human Image Personalization with High-fidelity Identity Preservation

Resumo

Support