InstantFamily: Atención Enmascarada para la Generación de Imágenes Multi-ID con Aprendizaje Cero
InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation
April 30, 2024
Autores: Chanran Kim, Jeongin Lee, Shichang Joung, Bongmo Kim, Yeul-Min Baek
cs.AI
Resumen
En el campo de la generación de imágenes personalizadas, la capacidad de crear imágenes que preserven conceptos ha mejorado significativamente. Crear una imagen que integre naturalmente múltiples conceptos en una composición cohesiva y visualmente atractiva puede ser, de hecho, un desafío. Este artículo presenta "InstantFamily", un enfoque que emplea un novedoso mecanismo de atención cruzada enmascarada y una pila de embeddings multimodales para lograr la generación de imágenes multi-ID sin necesidad de entrenamiento previo. Nuestro método preserva eficazmente la identidad (ID) al utilizar características globales y locales de un modelo de reconocimiento facial preentrenado, integrado con condiciones de texto. Además, nuestro mecanismo de atención cruzada enmascarada permite un control preciso de la multi-ID y la composición en las imágenes generadas. Demostramos la efectividad de InstantFamily mediante experimentos que muestran su dominio en la generación de imágenes con multi-ID, resolviendo problemas conocidos en la generación multi-ID. Asimismo, nuestro modelo alcanza un rendimiento de vanguardia tanto en la preservación de ID única como multi-ID. Además, nuestro modelo exhibe una escalabilidad notable, preservando un mayor número de identidades que aquellas con las que fue originalmente entrenado.
English
In the field of personalized image generation, the ability to create images
preserving concepts has significantly improved. Creating an image that
naturally integrates multiple concepts in a cohesive and visually appealing
composition can indeed be challenging. This paper introduces "InstantFamily,"
an approach that employs a novel masked cross-attention mechanism and a
multimodal embedding stack to achieve zero-shot multi-ID image generation. Our
method effectively preserves ID as it utilizes global and local features from a
pre-trained face recognition model integrated with text conditions.
Additionally, our masked cross-attention mechanism enables the precise control
of multi-ID and composition in the generated images. We demonstrate the
effectiveness of InstantFamily through experiments showing its dominance in
generating images with multi-ID, while resolving well-known multi-ID generation
problems. Additionally, our model achieves state-of-the-art performance in both
single-ID and multi-ID preservation. Furthermore, our model exhibits remarkable
scalability with a greater number of ID preservation than it was originally
trained with.