InstantFamily: Gemaskeerde aandacht voor zero-shot multi-ID beeldgeneratie
InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation
April 30, 2024
Auteurs: Chanran Kim, Jeongin Lee, Shichang Joung, Bongmo Kim, Yeul-Min Baek
cs.AI
Samenvatting
Op het gebied van gepersonaliseerde beeldgeneratie is het vermogen om afbeeldingen te creëren die concepten behouden aanzienlijk verbeterd. Het maken van een afbeelding die meerdere concepten op een natuurlijke manier integreert in een samenhangende en visueel aantrekkelijke compositie kan inderdaad een uitdaging zijn. Dit artikel introduceert "InstantFamily," een benadering die gebruikmaakt van een nieuw gemaskeerd kruis-attentiemechanisme en een multimodale embeddingstack om zero-shot multi-ID beeldgeneratie te bereiken. Onze methode behoudt effectief ID door gebruik te maken van globale en lokale kenmerken van een vooraf getraind gezichtsherkenningsmodel, geïntegreerd met tekstcondities. Daarnaast stelt ons gemaskeerde kruis-attentiemechanisme een nauwkeurige controle van multi-ID en compositie in de gegenereerde afbeeldingen mogelijk. We demonstreren de effectiviteit van InstantFamily door experimenten die de dominantie ervan aantonen in het genereren van afbeeldingen met multi-ID, terwijl bekende problemen bij multi-ID generatie worden opgelost. Bovendien bereikt ons model state-of-the-art prestaties in zowel single-ID als multi-ID behoud. Verder toont ons model opmerkelijke schaalbaarheid met een groter aantal ID-behouden dan waar het oorspronkelijk voor was getraind.
English
In the field of personalized image generation, the ability to create images
preserving concepts has significantly improved. Creating an image that
naturally integrates multiple concepts in a cohesive and visually appealing
composition can indeed be challenging. This paper introduces "InstantFamily,"
an approach that employs a novel masked cross-attention mechanism and a
multimodal embedding stack to achieve zero-shot multi-ID image generation. Our
method effectively preserves ID as it utilizes global and local features from a
pre-trained face recognition model integrated with text conditions.
Additionally, our masked cross-attention mechanism enables the precise control
of multi-ID and composition in the generated images. We demonstrate the
effectiveness of InstantFamily through experiments showing its dominance in
generating images with multi-ID, while resolving well-known multi-ID generation
problems. Additionally, our model achieves state-of-the-art performance in both
single-ID and multi-ID preservation. Furthermore, our model exhibits remarkable
scalability with a greater number of ID preservation than it was originally
trained with.