InstantFamily: Attenzione Maschera per la Generazione di Immagini Multi-ID Zero-shot
InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation
April 30, 2024
Autori: Chanran Kim, Jeongin Lee, Shichang Joung, Bongmo Kim, Yeul-Min Baek
cs.AI
Abstract
Nel campo della generazione di immagini personalizzate, la capacità di creare immagini che preservano i concetti è migliorata significativamente. Creare un'immagine che integri naturalmente più concetti in una composizione coerente e visivamente accattivante può essere effettivamente impegnativo. Questo articolo introduce "InstantFamily", un approccio che utilizza un nuovo meccanismo di cross-attention mascherato e uno stack di embedding multimodale per ottenere la generazione di immagini multi-ID in modalità zero-shot. Il nostro metodo preserva efficacemente l'ID poiché utilizza caratteristiche globali e locali di un modello pre-addestrato per il riconoscimento facciale integrato con condizioni testuali. Inoltre, il nostro meccanismo di cross-attention mascherato consente un controllo preciso del multi-ID e della composizione nelle immagini generate. Dimostriamo l'efficacia di InstantFamily attraverso esperimenti che ne evidenziano la superiorità nella generazione di immagini con multi-ID, risolvendo al contempo noti problemi di generazione multi-ID. Inoltre, il nostro modello raggiunge prestazioni all'avanguardia sia nella preservazione di singoli ID che di multi-ID. Infine, il nostro modello mostra una notevole scalabilità con un numero di preservazioni di ID superiore a quello con cui è stato originariamente addestrato.
English
In the field of personalized image generation, the ability to create images
preserving concepts has significantly improved. Creating an image that
naturally integrates multiple concepts in a cohesive and visually appealing
composition can indeed be challenging. This paper introduces "InstantFamily,"
an approach that employs a novel masked cross-attention mechanism and a
multimodal embedding stack to achieve zero-shot multi-ID image generation. Our
method effectively preserves ID as it utilizes global and local features from a
pre-trained face recognition model integrated with text conditions.
Additionally, our masked cross-attention mechanism enables the precise control
of multi-ID and composition in the generated images. We demonstrate the
effectiveness of InstantFamily through experiments showing its dominance in
generating images with multi-ID, while resolving well-known multi-ID generation
problems. Additionally, our model achieves state-of-the-art performance in both
single-ID and multi-ID preservation. Furthermore, our model exhibits remarkable
scalability with a greater number of ID preservation than it was originally
trained with.