ChatPaper.aiChatPaper

Adaptador Facial para Modelos de Difusão Pré-Treinados com Controle Fino de Identidade e Atributos

Face Adapter for Pre-Trained Diffusion Models with Fine-Grained ID and Attribute Control

May 21, 2024
Autores: Yue Han, Junwei Zhu, Keke He, Xu Chen, Yanhao Ge, Wei Li, Xiangtai Li, Jiangning Zhang, Chengjie Wang, Yong Liu
cs.AI

Resumo

Os métodos atuais de reencenação e troca de faces dependem principalmente de frameworks GAN, mas o foco recente mudou para modelos de difusão pré-treinados devido às suas capacidades superiores de geração. No entanto, o treinamento desses modelos é intensivo em recursos, e os resultados ainda não atingiram níveis de desempenho satisfatórios. Para resolver esse problema, apresentamos o Face-Adapter, um adaptador eficiente e eficaz projetado para edição de faces de alta precisão e alta fidelidade em modelos de difusão pré-treinados. Observamos que tanto as tarefas de reencenação quanto de troca de faces envolvem essencialmente combinações de estrutura alvo, ID e atributos. Nosso objetivo é desacoplar suficientemente o controle desses fatores para realizar ambas as tarefas em um único modelo. Especificamente, nosso método contém: 1) Um Gerador de Condição Espacial que fornece marcos precisos e fundo; 2) Um Codificador de Identidade Plug-and-play que transfere embeddings de faces para o espaço de texto por meio de um decodificador transformer. 3) Um Controlador de Atributos que integra condições espaciais e atributos detalhados. O Face-Adapter alcança desempenho comparável ou até superior em termos de precisão de controle de movimento, capacidade de retenção de ID e qualidade de geração em comparação com modelos de reencenação/troca de faces totalmente ajustados. Além disso, o Face-Adapter integra-se perfeitamente com vários modelos StableDiffusion.
English
Current face reenactment and swapping methods mainly rely on GAN frameworks, but recent focus has shifted to pre-trained diffusion models for their superior generation capabilities. However, training these models is resource-intensive, and the results have not yet achieved satisfactory performance levels. To address this issue, we introduce Face-Adapter, an efficient and effective adapter designed for high-precision and high-fidelity face editing for pre-trained diffusion models. We observe that both face reenactment/swapping tasks essentially involve combinations of target structure, ID and attribute. We aim to sufficiently decouple the control of these factors to achieve both tasks in one model. Specifically, our method contains: 1) A Spatial Condition Generator that provides precise landmarks and background; 2) A Plug-and-play Identity Encoder that transfers face embeddings to the text space by a transformer decoder. 3) An Attribute Controller that integrates spatial conditions and detailed attributes. Face-Adapter achieves comparable or even superior performance in terms of motion control precision, ID retention capability, and generation quality compared to fully fine-tuned face reenactment/swapping models. Additionally, Face-Adapter seamlessly integrates with various StableDiffusion models.
PDF255December 15, 2024