ChatPaper.aiChatPaper

InstantFamily: Maskierte Aufmerksamkeit für die Generierung von Bildern mit mehreren unbekannten Identitäten

InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation

April 30, 2024
Autoren: Chanran Kim, Jeongin Lee, Shichang Joung, Bongmo Kim, Yeul-Min Baek
cs.AI

Zusammenfassung

Im Bereich der personalisierten Bildgenerierung hat sich die Fähigkeit, Bilder unter Beibehaltung von Konzepten zu erstellen, signifikant verbessert. Ein Bild zu schaffen, das mehrere Konzepte auf natürliche Weise in einer zusammenhängenden und visuell ansprechenden Komposition integriert, kann in der Tat herausfordernd sein. Dieses Papier stellt "InstantFamily" vor, einen Ansatz, der einen neuartigen maskierten Kreuz-Aufmerksamkeitsmechanismus und einen multimodalen Einbettungsstapel verwendet, um die Mehrfach-ID-Bildgenerierung ohne Trainingsdaten zu erreichen. Unsere Methode bewahrt die ID effektiv, da sie globale und lokale Merkmale aus einem vorab trainierten Gesichtserkennungsmodell nutzt, das mit Textbedingungen integriert ist. Darüber hinaus ermöglicht unser maskierter Kreuz-Aufmerksamkeitsmechanismus die präzise Steuerung der Mehrfach-ID und der Komposition in den generierten Bildern. Wir zeigen die Wirksamkeit von InstantFamily durch Experimente, die seine Dominanz bei der Generierung von Bildern mit Mehrfach-ID aufzeigen, während bekannte Probleme bei der Mehrfach-ID-Generierung gelöst werden. Darüber hinaus erreicht unser Modell eine Spitzenleistung sowohl bei der Erhaltung einer einzelnen ID als auch bei der Mehrfach-ID-Erhaltung. Darüber hinaus zeigt unser Modell eine bemerkenswerte Skalierbarkeit mit einer größeren Anzahl von ID-Erhaltungen, als es ursprünglich trainiert wurde.
English
In the field of personalized image generation, the ability to create images preserving concepts has significantly improved. Creating an image that naturally integrates multiple concepts in a cohesive and visually appealing composition can indeed be challenging. This paper introduces "InstantFamily," an approach that employs a novel masked cross-attention mechanism and a multimodal embedding stack to achieve zero-shot multi-ID image generation. Our method effectively preserves ID as it utilizes global and local features from a pre-trained face recognition model integrated with text conditions. Additionally, our masked cross-attention mechanism enables the precise control of multi-ID and composition in the generated images. We demonstrate the effectiveness of InstantFamily through experiments showing its dominance in generating images with multi-ID, while resolving well-known multi-ID generation problems. Additionally, our model achieves state-of-the-art performance in both single-ID and multi-ID preservation. Furthermore, our model exhibits remarkable scalability with a greater number of ID preservation than it was originally trained with.

Summary

AI-Generated Summary

PDF756December 8, 2024