Infinite-ID : Personnalisation préservant l'identité via un paradigme de découplage sémantique des ID
Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm
March 18, 2024
Auteurs: Yi Wu, Ziqiang Li, Heliang Zheng, Chaoyue Wang, Bin Li
cs.AI
Résumé
S'appuyant sur les récents progrès des modèles de diffusion pour la génération d'images à partir de texte, la personnalisation préservant l'identité a réalisé des avancées significatives dans la capture précise d'identités spécifiques avec une seule image de référence. Cependant, les méthodes existantes intègrent principalement les images de référence dans l'espace d'encodage textuel, entraînant un enchevêtrement complexe des informations d'image et de texte, ce qui pose des défis pour préserver à la fois la fidélité de l'identité et la cohérence sémantique. Pour relever ce défi, nous proposons Infinite-ID, un paradigme de découplage ID-sémantique pour la personnalisation préservant l'identité. Plus précisément, nous introduisons un entraînement renforcé par l'identité, incorporant un module supplémentaire de cross-attention d'image pour capturer suffisamment d'informations d'identité tout en désactivant le module de cross-attention textuel original du modèle de diffusion. Cela garantit que le flux d'image représente fidèlement l'identité fournie par l'image de référence tout en atténuant les interférences de l'entrée textuelle. De plus, nous introduisons un mécanisme d'interaction de caractéristiques qui combine un module d'attention mixte avec une opération AdaIN-moyenne pour fusionner de manière transparente les deux flux. Ce mécanisme améliore non seulement la fidélité de l'identité et la cohérence sémantique, mais permet également un contrôle pratique des styles des images générées. Les résultats expérimentaux approfondis sur la génération de photos brutes et d'images stylisées démontrent la performance supérieure de notre méthode proposée.
English
Drawing on recent advancements in diffusion models for text-to-image
generation, identity-preserved personalization has made significant progress in
accurately capturing specific identities with just a single reference image.
However, existing methods primarily integrate reference images within the text
embedding space, leading to a complex entanglement of image and text
information, which poses challenges for preserving both identity fidelity and
semantic consistency. To tackle this challenge, we propose Infinite-ID, an
ID-semantics decoupling paradigm for identity-preserved personalization.
Specifically, we introduce identity-enhanced training, incorporating an
additional image cross-attention module to capture sufficient ID information
while deactivating the original text cross-attention module of the diffusion
model. This ensures that the image stream faithfully represents the identity
provided by the reference image while mitigating interference from textual
input. Additionally, we introduce a feature interaction mechanism that combines
a mixed attention module with an AdaIN-mean operation to seamlessly merge the
two streams. This mechanism not only enhances the fidelity of identity and
semantic consistency but also enables convenient control over the styles of the
generated images. Extensive experimental results on both raw photo generation
and style image generation demonstrate the superior performance of our proposed
method.Summary
AI-Generated Summary