MagiCapture: Personalização de Retratos Multiconceito em Alta Resolução
MagiCapture: High-Resolution Multi-Concept Portrait Customization
September 13, 2023
Autores: Junha Hyung, Jaeyo Shin, Jaegul Choo
cs.AI
Resumo
Modelos de grande escala de texto para imagem, incluindo o Stable Diffusion, são capazes de gerar imagens de retratos fotorealistas de alta fidelidade. Há uma área de pesquisa ativa dedicada à personalização desses modelos, visando sintetizar assuntos ou estilos específicos usando conjuntos de imagens de referência fornecidos. No entanto, apesar dos resultados plausíveis desses métodos de personalização, eles tendem a produzir imagens que frequentemente não atingem o realismo e ainda não estão em um nível comercialmente viável. Isso é particularmente perceptível na geração de imagens de retratos, onde qualquer artefato não natural em rostos humanos é facilmente discernível devido ao nosso viés humano inerente. Para abordar isso, introduzimos o MagiCapture, um método de personalização para integrar conceitos de assunto e estilo a fim de gerar imagens de retrato de alta resolução usando apenas algumas referências de assunto e estilo. Por exemplo, dado um punhado de selfies aleatórias, nosso modelo ajustado pode gerar imagens de retrato de alta qualidade em estilos específicos, como fotos de passaporte ou de perfil. O principal desafio dessa tarefa é a ausência de uma verdade fundamental para os conceitos compostos, levando a uma redução na qualidade da saída final e a uma mudança de identidade do assunto original. Para abordar esses problemas, apresentamos uma nova função de perda de Reorientação de Atenção, juntamente com priores auxiliares, ambos os quais facilitam um aprendizado robusto nesse cenário de aprendizado fracamente supervisionado. Nossa pipeline também inclui etapas adicionais de pós-processamento para garantir a criação de saídas altamente realistas. O MagiCapture supera outras linhas de base em avaliações quantitativas e qualitativas e também pode ser generalizado para outros objetos não humanos.
English
Large-scale text-to-image models including Stable Diffusion are capable of
generating high-fidelity photorealistic portrait images. There is an active
research area dedicated to personalizing these models, aiming to synthesize
specific subjects or styles using provided sets of reference images. However,
despite the plausible results from these personalization methods, they tend to
produce images that often fall short of realism and are not yet on a
commercially viable level. This is particularly noticeable in portrait image
generation, where any unnatural artifact in human faces is easily discernible
due to our inherent human bias. To address this, we introduce MagiCapture, a
personalization method for integrating subject and style concepts to generate
high-resolution portrait images using just a few subject and style references.
For instance, given a handful of random selfies, our fine-tuned model can
generate high-quality portrait images in specific styles, such as passport or
profile photos. The main challenge with this task is the absence of ground
truth for the composed concepts, leading to a reduction in the quality of the
final output and an identity shift of the source subject. To address these
issues, we present a novel Attention Refocusing loss coupled with auxiliary
priors, both of which facilitate robust learning within this weakly supervised
learning setting. Our pipeline also includes additional post-processing steps
to ensure the creation of highly realistic outputs. MagiCapture outperforms
other baselines in both quantitative and qualitative evaluations and can also
be generalized to other non-human objects.