InstantFamily : Attention Masquée pour la Génération d'Images Multi-ID en Zero-shot
InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation
April 30, 2024
Auteurs: Chanran Kim, Jeongin Lee, Shichang Joung, Bongmo Kim, Yeul-Min Baek
cs.AI
Résumé
Dans le domaine de la génération d'images personnalisées, la capacité à créer des images préservant des concepts s'est considérablement améliorée. Créer une image qui intègre naturellement plusieurs concepts dans une composition cohérente et visuellement attrayante peut en effet s'avérer complexe. Cet article présente "InstantFamily", une approche qui utilise un nouveau mécanisme d'attention croisée masquée et une pile d'embeddings multimodaux pour réaliser la génération d'images multi-ID en zero-shot. Notre méthode préserve efficacement l'identité (ID) en exploitant des caractéristiques globales et locales d'un modèle de reconnaissance faciale pré-entraîné, intégrées avec des conditions textuelles. De plus, notre mécanisme d'attention croisée masquée permet un contrôle précis de l'intégration multi-ID et de la composition dans les images générées. Nous démontrons l'efficacité d'InstantFamily à travers des expériences montrant sa supériorité dans la génération d'images multi-ID, tout en résolvant des problèmes bien connus liés à cette tâche. Par ailleurs, notre modèle atteint des performances de pointe à la fois pour la préservation d'une seule ID et de plusieurs ID. Enfin, notre modèle présente une scalabilité remarquable, capable de préserver un nombre d'identités supérieur à celui utilisé lors de son entraînement initial.
English
In the field of personalized image generation, the ability to create images
preserving concepts has significantly improved. Creating an image that
naturally integrates multiple concepts in a cohesive and visually appealing
composition can indeed be challenging. This paper introduces "InstantFamily,"
an approach that employs a novel masked cross-attention mechanism and a
multimodal embedding stack to achieve zero-shot multi-ID image generation. Our
method effectively preserves ID as it utilizes global and local features from a
pre-trained face recognition model integrated with text conditions.
Additionally, our masked cross-attention mechanism enables the precise control
of multi-ID and composition in the generated images. We demonstrate the
effectiveness of InstantFamily through experiments showing its dominance in
generating images with multi-ID, while resolving well-known multi-ID generation
problems. Additionally, our model achieves state-of-the-art performance in both
single-ID and multi-ID preservation. Furthermore, our model exhibits remarkable
scalability with a greater number of ID preservation than it was originally
trained with.Summary
AI-Generated Summary