MagiCapture: Personalización de Retratos Multi-Concepto en Alta Resolución
MagiCapture: High-Resolution Multi-Concept Portrait Customization
September 13, 2023
Autores: Junha Hyung, Jaeyo Shin, Jaegul Choo
cs.AI
Resumen
Los modelos de texto a imagen a gran escala, como Stable Diffusion, son capaces de generar imágenes retrato fotorrealistas de alta fidelidad. Existe un área de investigación activa dedicada a personalizar estos modelos, con el objetivo de sintetizar sujetos o estilos específicos utilizando conjuntos de imágenes de referencia proporcionados. Sin embargo, a pesar de los resultados plausibles de estos métodos de personalización, tienden a producir imágenes que a menudo carecen de realismo y aún no alcanzan un nivel comercialmente viable. Esto es particularmente notable en la generación de imágenes retrato, donde cualquier artefacto no natural en los rostros humanos es fácilmente perceptible debido a nuestro sesgo humano inherente. Para abordar esto, presentamos MagiCapture, un método de personalización que integra conceptos de sujeto y estilo para generar imágenes retrato de alta resolución utilizando solo unas pocas referencias de sujeto y estilo. Por ejemplo, dado un puñado de selfies aleatorios, nuestro modelo ajustado puede generar imágenes retrato de alta calidad en estilos específicos, como fotos de pasaporte o de perfil. El principal desafío de esta tarea es la ausencia de una verdad fundamental para los conceptos compuestos, lo que conduce a una reducción en la calidad de la salida final y a un cambio de identidad del sujeto fuente. Para abordar estos problemas, presentamos una nueva función de pérdida de Reenfoque de Atención junto con priores auxiliares, ambos facilitan un aprendizaje robusto en este entorno de aprendizaje débilmente supervisado. Nuestro pipeline también incluye pasos adicionales de post-procesamiento para garantizar la creación de salidas altamente realistas. MagiCapture supera a otras líneas base en evaluaciones tanto cuantitativas como cualitativas y también puede generalizarse a otros objetos no humanos.
English
Large-scale text-to-image models including Stable Diffusion are capable of
generating high-fidelity photorealistic portrait images. There is an active
research area dedicated to personalizing these models, aiming to synthesize
specific subjects or styles using provided sets of reference images. However,
despite the plausible results from these personalization methods, they tend to
produce images that often fall short of realism and are not yet on a
commercially viable level. This is particularly noticeable in portrait image
generation, where any unnatural artifact in human faces is easily discernible
due to our inherent human bias. To address this, we introduce MagiCapture, a
personalization method for integrating subject and style concepts to generate
high-resolution portrait images using just a few subject and style references.
For instance, given a handful of random selfies, our fine-tuned model can
generate high-quality portrait images in specific styles, such as passport or
profile photos. The main challenge with this task is the absence of ground
truth for the composed concepts, leading to a reduction in the quality of the
final output and an identity shift of the source subject. To address these
issues, we present a novel Attention Refocusing loss coupled with auxiliary
priors, both of which facilitate robust learning within this weakly supervised
learning setting. Our pipeline also includes additional post-processing steps
to ensure the creation of highly realistic outputs. MagiCapture outperforms
other baselines in both quantitative and qualitative evaluations and can also
be generalized to other non-human objects.