ChatPaper.aiChatPaper

StableIdentity : Insérer n’importe qui n’importe où à première vue

StableIdentity: Inserting Anybody into Anywhere at First Sight

January 29, 2024
Auteurs: Qinghe Wang, Xu Jia, Xiaomin Li, Taiqing Li, Liqian Ma, Yunzhi Zhuge, Huchuan Lu
cs.AI

Résumé

Les récentes avancées dans les grands modèles pré-entraînés de génération d'images à partir de texte ont démontré des capacités sans précédent pour la génération de haute qualité centrée sur l'humain. Cependant, la personnalisation de l'identité faciale reste un problème difficile à résoudre. Les méthodes existantes ne parviennent pas à assurer une préservation stable de l'identité et une éditabilité flexible, même avec plusieurs images par sujet pendant l'entraînement. Dans ce travail, nous proposons StableIdentity, qui permet une recontextualisation cohérente de l'identité avec une seule image faciale. Plus précisément, nous utilisons un encodeur facial avec un a priori d'identité pour encoder le visage en entrée, puis nous plaçons la représentation faciale dans un espace doté d'un a priori d'éditabilité, construit à partir de noms de célébrités. En incorporant un a priori d'identité et un a priori d'éditabilité, l'identité apprise peut être injectée n'importe où dans divers contextes. De plus, nous concevons une perte de diffusion à deux phases masquée pour renforcer la perception au niveau des pixels du visage en entrée et maintenir la diversité de la génération. Des expériences approfondies démontrent que notre méthode surpasse les méthodes de personnalisation précédentes. En outre, l'identité apprise peut être combinée de manière flexible avec des modules prêts à l'emploi tels que ControlNet. Notamment, à notre connaissance, nous sommes les premiers à injecter directement l'identité apprise à partir d'une seule image dans la génération vidéo/3D sans ajustement fin. Nous croyons que la méthode StableIdentity proposée constitue une étape importante pour unifier les modèles de génération personnalisée d'images, de vidéos et de contenus 3D.
English
Recent advances in large pretrained text-to-image models have shown unprecedented capabilities for high-quality human-centric generation, however, customizing face identity is still an intractable problem. Existing methods cannot ensure stable identity preservation and flexible editability, even with several images for each subject during training. In this work, we propose StableIdentity, which allows identity-consistent recontextualization with just one face image. More specifically, we employ a face encoder with an identity prior to encode the input face, and then land the face representation into a space with an editable prior, which is constructed from celeb names. By incorporating identity prior and editability prior, the learned identity can be injected anywhere with various contexts. In addition, we design a masked two-phase diffusion loss to boost the pixel-level perception of the input face and maintain the diversity of generation. Extensive experiments demonstrate our method outperforms previous customization methods. In addition, the learned identity can be flexibly combined with the off-the-shelf modules such as ControlNet. Notably, to the best knowledge, we are the first to directly inject the identity learned from a single image into video/3D generation without finetuning. We believe that the proposed StableIdentity is an important step to unify image, video, and 3D customized generation models.
PDF192December 15, 2024