Infinite-ID: Personalización con preservación de identidad mediante el paradigma de desacoplamiento de semántica de ID
Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm
March 18, 2024
Autores: Yi Wu, Ziqiang Li, Heliang Zheng, Chaoyue Wang, Bin Li
cs.AI
Resumen
Basándose en los recientes avances en modelos de difusión para la generación de imágenes a partir de texto, la personalización con preservación de identidad ha logrado un progreso significativo al capturar con precisión identidades específicas utilizando solo una imagen de referencia. Sin embargo, los métodos existentes integran principalmente las imágenes de referencia dentro del espacio de incrustación de texto, lo que genera un entrelazamiento complejo entre la información de imagen y texto, lo que plantea desafíos para preservar tanto la fidelidad de la identidad como la consistencia semántica. Para abordar este desafío, proponemos Infinite-ID, un paradigma de desacoplamiento ID-semántica para la personalización con preservación de identidad. Específicamente, introducimos un entrenamiento mejorado de identidad, incorporando un módulo adicional de atención cruzada de imágenes para capturar suficiente información de ID mientras desactivamos el módulo original de atención cruzada de texto del modelo de difusión. Esto asegura que el flujo de imágenes represente fielmente la identidad proporcionada por la imagen de referencia, mitigando la interferencia de la entrada textual. Además, introducimos un mecanismo de interacción de características que combina un módulo de atención mixta con una operación AdaIN-mean para fusionar de manera fluida los dos flujos. Este mecanismo no solo mejora la fidelidad de la identidad y la consistencia semántica, sino que también permite un control conveniente sobre los estilos de las imágenes generadas. Los resultados experimentales extensivos en la generación de fotos crudas y la generación de imágenes con estilo demuestran el rendimiento superior de nuestro método propuesto.
English
Drawing on recent advancements in diffusion models for text-to-image
generation, identity-preserved personalization has made significant progress in
accurately capturing specific identities with just a single reference image.
However, existing methods primarily integrate reference images within the text
embedding space, leading to a complex entanglement of image and text
information, which poses challenges for preserving both identity fidelity and
semantic consistency. To tackle this challenge, we propose Infinite-ID, an
ID-semantics decoupling paradigm for identity-preserved personalization.
Specifically, we introduce identity-enhanced training, incorporating an
additional image cross-attention module to capture sufficient ID information
while deactivating the original text cross-attention module of the diffusion
model. This ensures that the image stream faithfully represents the identity
provided by the reference image while mitigating interference from textual
input. Additionally, we introduce a feature interaction mechanism that combines
a mixed attention module with an AdaIN-mean operation to seamlessly merge the
two streams. This mechanism not only enhances the fidelity of identity and
semantic consistency but also enables convenient control over the styles of the
generated images. Extensive experimental results on both raw photo generation
and style image generation demonstrate the superior performance of our proposed
method.Summary
AI-Generated Summary