InstantFamily: Atención Enmascarada para la Generación de Imágenes Multi-ID con Aprendizaje Cero

Resumen

En el campo de la generación de imágenes personalizadas, la capacidad de crear imágenes que preserven conceptos ha mejorado significativamente. Crear una imagen que integre naturalmente múltiples conceptos en una composición cohesiva y visualmente atractiva puede ser, de hecho, un desafío. Este artículo presenta "InstantFamily", un enfoque que emplea un novedoso mecanismo de atención cruzada enmascarada y una pila de embeddings multimodales para lograr la generación de imágenes multi-ID sin necesidad de entrenamiento previo. Nuestro método preserva eficazmente la identidad (ID) al utilizar características globales y locales de un modelo de reconocimiento facial preentrenado, integrado con condiciones de texto. Además, nuestro mecanismo de atención cruzada enmascarada permite un control preciso de la multi-ID y la composición en las imágenes generadas. Demostramos la efectividad de InstantFamily mediante experimentos que muestran su dominio en la generación de imágenes con multi-ID, resolviendo problemas conocidos en la generación multi-ID. Asimismo, nuestro modelo alcanza un rendimiento de vanguardia tanto en la preservación de ID única como multi-ID. Además, nuestro modelo exhibe una escalabilidad notable, preservando un mayor número de identidades que aquellas con las que fue originalmente entrenado.

English

In the field of personalized image generation, the ability to create images preserving concepts has significantly improved. Creating an image that naturally integrates multiple concepts in a cohesive and visually appealing composition can indeed be challenging. This paper introduces "InstantFamily," an approach that employs a novel masked cross-attention mechanism and a multimodal embedding stack to achieve zero-shot multi-ID image generation. Our method effectively preserves ID as it utilizes global and local features from a pre-trained face recognition model integrated with text conditions. Additionally, our masked cross-attention mechanism enables the precise control of multi-ID and composition in the generated images. We demonstrate the effectiveness of InstantFamily through experiments showing its dominance in generating images with multi-ID, while resolving well-known multi-ID generation problems. Additionally, our model achieves state-of-the-art performance in both single-ID and multi-ID preservation. Furthermore, our model exhibits remarkable scalability with a greater number of ID preservation than it was originally trained with.

InstantFamily: Atención Enmascarada para la Generación de Imágenes Multi-ID con Aprendizaje Cero

InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation

Resumen

Support