Мгновенное семейство: маскированное внимание для генерации изображений с несколькими идентификаторами без обучения.
InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation
April 30, 2024
Авторы: Chanran Kim, Jeongin Lee, Shichang Joung, Bongmo Kim, Yeul-Min Baek
cs.AI
Аннотация
В области персонализированной генерации изображений значительно улучшилась способность создавать изображения, сохраняя концепции. Создание изображения, естественно интегрирующего несколько концепций в цельное и визуально привлекательное композиционное целое, действительно может быть вызовом. В данной статье представлен подход "InstantFamily", который использует новый механизм маскированного кросс-внимания и мультимодальный стек встраивания для достижения генерации изображений с несколькими идентификаторами без обучения. Наш метод эффективно сохраняет идентификатор, поскольку использует глобальные и локальные признаки из предварительно обученной модели распознавания лиц, интегрированные с текстовыми условиями. Кроме того, наш механизм маскированного кросс-внимания обеспечивает точный контроль над множественными идентификаторами и композицией в созданных изображениях. Мы демонстрируем эффективность InstantFamily через эксперименты, показывающие его превосходство в генерации изображений с несколькими идентификаторами, а также решение известных проблем генерации изображений с несколькими идентификаторами. Кроме того, наша модель достигает передовых результатов как в сохранении одиночного, так и нескольких идентификаторов. Более того, наша модель обладает замечательной масштабируемостью с большим количеством сохраненных идентификаторов, чем была изначально обучена.
English
In the field of personalized image generation, the ability to create images
preserving concepts has significantly improved. Creating an image that
naturally integrates multiple concepts in a cohesive and visually appealing
composition can indeed be challenging. This paper introduces "InstantFamily,"
an approach that employs a novel masked cross-attention mechanism and a
multimodal embedding stack to achieve zero-shot multi-ID image generation. Our
method effectively preserves ID as it utilizes global and local features from a
pre-trained face recognition model integrated with text conditions.
Additionally, our masked cross-attention mechanism enables the precise control
of multi-ID and composition in the generated images. We demonstrate the
effectiveness of InstantFamily through experiments showing its dominance in
generating images with multi-ID, while resolving well-known multi-ID generation
problems. Additionally, our model achieves state-of-the-art performance in both
single-ID and multi-ID preservation. Furthermore, our model exhibits remarkable
scalability with a greater number of ID preservation than it was originally
trained with.Summary
AI-Generated Summary