Infinite-ID : Personnalisation préservant l'identité via un paradigme de découplage sémantique des ID

papers.abstract

S'appuyant sur les récents progrès des modèles de diffusion pour la génération d'images à partir de texte, la personnalisation préservant l'identité a réalisé des avancées significatives dans la capture précise d'identités spécifiques avec une seule image de référence. Cependant, les méthodes existantes intègrent principalement les images de référence dans l'espace d'encodage textuel, entraînant un enchevêtrement complexe des informations d'image et de texte, ce qui pose des défis pour préserver à la fois la fidélité de l'identité et la cohérence sémantique. Pour relever ce défi, nous proposons Infinite-ID, un paradigme de découplage ID-sémantique pour la personnalisation préservant l'identité. Plus précisément, nous introduisons un entraînement renforcé par l'identité, incorporant un module supplémentaire de cross-attention d'image pour capturer suffisamment d'informations d'identité tout en désactivant le module de cross-attention textuel original du modèle de diffusion. Cela garantit que le flux d'image représente fidèlement l'identité fournie par l'image de référence tout en atténuant les interférences de l'entrée textuelle. De plus, nous introduisons un mécanisme d'interaction de caractéristiques qui combine un module d'attention mixte avec une opération AdaIN-moyenne pour fusionner de manière transparente les deux flux. Ce mécanisme améliore non seulement la fidélité de l'identité et la cohérence sémantique, mais permet également un contrôle pratique des styles des images générées. Les résultats expérimentaux approfondis sur la génération de photos brutes et d'images stylisées démontrent la performance supérieure de notre méthode proposée.

English

Drawing on recent advancements in diffusion models for text-to-image generation, identity-preserved personalization has made significant progress in accurately capturing specific identities with just a single reference image. However, existing methods primarily integrate reference images within the text embedding space, leading to a complex entanglement of image and text information, which poses challenges for preserving both identity fidelity and semantic consistency. To tackle this challenge, we propose Infinite-ID, an ID-semantics decoupling paradigm for identity-preserved personalization. Specifically, we introduce identity-enhanced training, incorporating an additional image cross-attention module to capture sufficient ID information while deactivating the original text cross-attention module of the diffusion model. This ensures that the image stream faithfully represents the identity provided by the reference image while mitigating interference from textual input. Additionally, we introduce a feature interaction mechanism that combines a mixed attention module with an AdaIN-mean operation to seamlessly merge the two streams. This mechanism not only enhances the fidelity of identity and semantic consistency but also enables convenient control over the styles of the generated images. Extensive experimental results on both raw photo generation and style image generation demonstrate the superior performance of our proposed method.

Infinite-ID : Personnalisation préservant l'identité via un paradigme de découplage sémantique des ID

Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm

papers.abstract

Support