InstantFamily: 제로샷 다중 ID 이미지 생성을 위한 마스크 어텐션
InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation
April 30, 2024
저자: Chanran Kim, Jeongin Lee, Shichang Joung, Bongmo Kim, Yeul-Min Baek
cs.AI
초록
개인화된 이미지 생성 분야에서 개념을 보존하며 이미지를 생성하는 능력이 크게 향상되었습니다. 여러 개념을 자연스럽게 통합하고 시각적으로 매력적인 구성을 갖춘 이미지를 만드는 것은 실제로 어려운 과제일 수 있습니다. 본 논문은 "InstantFamily"라는 접근 방식을 소개하며, 이는 새로운 마스크된 교차 주의 메커니즘과 다중 모달 임베딩 스택을 활용하여 제로샷 다중 ID 이미지 생성을 달성합니다. 우리의 방법은 텍스트 조건과 통합된 사전 훈련된 얼굴 인식 모델의 전역 및 지역적 특징을 활용함으로써 ID를 효과적으로 보존합니다. 또한, 마스크된 교차 주의 메커니즘은 생성된 이미지에서 다중 ID와 구성을 정밀하게 제어할 수 있게 합니다. 우리는 실험을 통해 InstantFamily가 다중 ID 이미지 생성에서 우수한 성능을 보이며, 잘 알려진 다중 ID 생성 문제를 해결하는 데 효과적임을 입증합니다. 또한, 우리의 모델은 단일 ID 및 다중 ID 보존 모두에서 최첨단 성능을 달성합니다. 더 나아가, 우리의 모델은 원래 훈련된 것보다 더 많은 ID 보존에서도 뛰어난 확장성을 보여줍니다.
English
In the field of personalized image generation, the ability to create images
preserving concepts has significantly improved. Creating an image that
naturally integrates multiple concepts in a cohesive and visually appealing
composition can indeed be challenging. This paper introduces "InstantFamily,"
an approach that employs a novel masked cross-attention mechanism and a
multimodal embedding stack to achieve zero-shot multi-ID image generation. Our
method effectively preserves ID as it utilizes global and local features from a
pre-trained face recognition model integrated with text conditions.
Additionally, our masked cross-attention mechanism enables the precise control
of multi-ID and composition in the generated images. We demonstrate the
effectiveness of InstantFamily through experiments showing its dominance in
generating images with multi-ID, while resolving well-known multi-ID generation
problems. Additionally, our model achieves state-of-the-art performance in both
single-ID and multi-ID preservation. Furthermore, our model exhibits remarkable
scalability with a greater number of ID preservation than it was originally
trained with.