ChatPaper.aiChatPaper

InstantFamily: Atenção Mascarada para Geração de Imagens Multi-ID com Zero-shot

InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation

April 30, 2024
Autores: Chanran Kim, Jeongin Lee, Shichang Joung, Bongmo Kim, Yeul-Min Baek
cs.AI

Resumo

No campo da geração de imagens personalizadas, a capacidade de criar imagens que preservam conceitos melhorou significativamente. Criar uma imagem que integra naturalmente múltiplos conceitos em uma composição coesa e visualmente atraente pode ser, de fato, desafiador. Este artigo apresenta o "InstantFamily", uma abordagem que emprega um novo mecanismo de atenção cruzada mascarada e uma pilha de embeddings multimodais para alcançar a geração de imagens com múltiplos IDs em zero-shot. Nosso método preserva efetivamente o ID ao utilizar características globais e locais de um modelo pré-treinado de reconhecimento facial integrado com condições de texto. Além disso, nosso mecanismo de atenção cruzada mascarada permite o controle preciso de múltiplos IDs e da composição nas imagens geradas. Demonstramos a eficácia do InstantFamily por meio de experimentos que mostram sua superioridade na geração de imagens com múltiplos IDs, ao mesmo tempo em que resolve problemas conhecidos na geração de múltiplos IDs. Adicionalmente, nosso modelo alcança desempenho de ponta tanto na preservação de ID único quanto de múltiplos IDs. Além disso, nosso modelo exibe uma escalabilidade notável, preservando um número maior de IDs do que aquele com o qual foi originalmente treinado.
English
In the field of personalized image generation, the ability to create images preserving concepts has significantly improved. Creating an image that naturally integrates multiple concepts in a cohesive and visually appealing composition can indeed be challenging. This paper introduces "InstantFamily," an approach that employs a novel masked cross-attention mechanism and a multimodal embedding stack to achieve zero-shot multi-ID image generation. Our method effectively preserves ID as it utilizes global and local features from a pre-trained face recognition model integrated with text conditions. Additionally, our masked cross-attention mechanism enables the precise control of multi-ID and composition in the generated images. We demonstrate the effectiveness of InstantFamily through experiments showing its dominance in generating images with multi-ID, while resolving well-known multi-ID generation problems. Additionally, our model achieves state-of-the-art performance in both single-ID and multi-ID preservation. Furthermore, our model exhibits remarkable scalability with a greater number of ID preservation than it was originally trained with.
PDF746December 8, 2024