InstantFamily: Attenzione Maschera per la Generazione di Immagini Multi-ID Zero-shot

Abstract

Nel campo della generazione di immagini personalizzate, la capacità di creare immagini che preservano i concetti è migliorata significativamente. Creare un'immagine che integri naturalmente più concetti in una composizione coerente e visivamente accattivante può essere effettivamente impegnativo. Questo articolo introduce "InstantFamily", un approccio che utilizza un nuovo meccanismo di cross-attention mascherato e uno stack di embedding multimodale per ottenere la generazione di immagini multi-ID in modalità zero-shot. Il nostro metodo preserva efficacemente l'ID poiché utilizza caratteristiche globali e locali di un modello pre-addestrato per il riconoscimento facciale integrato con condizioni testuali. Inoltre, il nostro meccanismo di cross-attention mascherato consente un controllo preciso del multi-ID e della composizione nelle immagini generate. Dimostriamo l'efficacia di InstantFamily attraverso esperimenti che ne evidenziano la superiorità nella generazione di immagini con multi-ID, risolvendo al contempo noti problemi di generazione multi-ID. Inoltre, il nostro modello raggiunge prestazioni all'avanguardia sia nella preservazione di singoli ID che di multi-ID. Infine, il nostro modello mostra una notevole scalabilità con un numero di preservazioni di ID superiore a quello con cui è stato originariamente addestrato.

English

In the field of personalized image generation, the ability to create images preserving concepts has significantly improved. Creating an image that naturally integrates multiple concepts in a cohesive and visually appealing composition can indeed be challenging. This paper introduces "InstantFamily," an approach that employs a novel masked cross-attention mechanism and a multimodal embedding stack to achieve zero-shot multi-ID image generation. Our method effectively preserves ID as it utilizes global and local features from a pre-trained face recognition model integrated with text conditions. Additionally, our masked cross-attention mechanism enables the precise control of multi-ID and composition in the generated images. We demonstrate the effectiveness of InstantFamily through experiments showing its dominance in generating images with multi-ID, while resolving well-known multi-ID generation problems. Additionally, our model achieves state-of-the-art performance in both single-ID and multi-ID preservation. Furthermore, our model exhibits remarkable scalability with a greater number of ID preservation than it was originally trained with.

InstantFamily: Attenzione Maschera per la Generazione di Immagini Multi-ID Zero-shot

InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation

Abstract

Support