ChatPaper.aiChatPaper

StableIdentity: Inserindo Qualquer Pessoa em Qualquer Lugar à Primeira Vista

StableIdentity: Inserting Anybody into Anywhere at First Sight

January 29, 2024
Autores: Qinghe Wang, Xu Jia, Xiaomin Li, Taiqing Li, Liqian Ma, Yunzhi Zhuge, Huchuan Lu
cs.AI

Resumo

Avanços recentes em grandes modelos pré-treinados de texto para imagem demonstraram capacidades sem precedentes para geração de alta qualidade centrada em humanos, no entanto, a personalização da identidade facial ainda é um problema intratável. Os métodos existentes não conseguem garantir a preservação estável da identidade e a flexibilidade de edição, mesmo com várias imagens de cada indivíduo durante o treinamento. Neste trabalho, propomos o StableIdentity, que permite a recontextualização consistente da identidade com apenas uma imagem facial. Mais especificamente, empregamos um codificador facial com um prior de identidade para codificar o rosto de entrada e, em seguida, posicionamos a representação facial em um espaço com um prior de editabilidade, que é construído a partir de nomes de celebridades. Ao incorporar o prior de identidade e o prior de editabilidade, a identidade aprendida pode ser injetada em qualquer lugar com diversos contextos. Além disso, projetamos uma perda de difusão em duas fases com máscara para aumentar a percepção em nível de pixel do rosto de entrada e manter a diversidade da geração. Experimentos extensivos demonstram que nosso método supera os métodos de personalização anteriores. Além disso, a identidade aprendida pode ser combinada de forma flexível com módulos prontos para uso, como o ControlNet. Notavelmente, até onde sabemos, somos os primeiros a injetar diretamente a identidade aprendida de uma única imagem na geração de vídeo/3D sem ajuste fino. Acreditamos que o StableIdentity proposto é um passo importante para unificar modelos de geração personalizada de imagem, vídeo e 3D.
English
Recent advances in large pretrained text-to-image models have shown unprecedented capabilities for high-quality human-centric generation, however, customizing face identity is still an intractable problem. Existing methods cannot ensure stable identity preservation and flexible editability, even with several images for each subject during training. In this work, we propose StableIdentity, which allows identity-consistent recontextualization with just one face image. More specifically, we employ a face encoder with an identity prior to encode the input face, and then land the face representation into a space with an editable prior, which is constructed from celeb names. By incorporating identity prior and editability prior, the learned identity can be injected anywhere with various contexts. In addition, we design a masked two-phase diffusion loss to boost the pixel-level perception of the input face and maintain the diversity of generation. Extensive experiments demonstrate our method outperforms previous customization methods. In addition, the learned identity can be flexibly combined with the off-the-shelf modules such as ControlNet. Notably, to the best knowledge, we are the first to directly inject the identity learned from a single image into video/3D generation without finetuning. We believe that the proposed StableIdentity is an important step to unify image, video, and 3D customized generation models.
PDF182December 15, 2024