MagiCapture: Personalizzazione di Ritratti Multi-Concetto ad Alta Risoluzione
MagiCapture: High-Resolution Multi-Concept Portrait Customization
September 13, 2023
Autori: Junha Hyung, Jaeyo Shin, Jaegul Choo
cs.AI
Abstract
I modelli su larga scala di generazione di immagini da testo, come Stable Diffusion, sono in grado di produrre immagini ritratto fotorealistiche ad alta fedeltà. Esiste un'area di ricerca attiva dedicata alla personalizzazione di questi modelli, con l'obiettivo di sintetizzare soggetti o stili specifici utilizzando insiemi di immagini di riferimento forniti. Tuttavia, nonostante i risultati plausibili ottenuti da questi metodi di personalizzazione, tendono a produrre immagini che spesso non raggiungono il realismo e non sono ancora a un livello commercialmente valido. Questo è particolarmente evidente nella generazione di immagini ritratto, dove qualsiasi artefatto innaturale nei volti umani è facilmente riconoscibile a causa del nostro pregiudizio umano intrinseco. Per affrontare questo problema, introduciamo MagiCapture, un metodo di personalizzazione per integrare concetti di soggetto e stile al fine di generare immagini ritratto ad alta risoluzione utilizzando solo pochi riferimenti di soggetto e stile. Ad esempio, data una manciata di selfie casuali, il nostro modello fine-tuned può generare immagini ritratto di alta qualità in stili specifici, come foto per passaporto o profilo. La principale sfida di questo compito è l'assenza di una verità di base per i concetti composti, che porta a una riduzione della qualità dell'output finale e a uno spostamento dell'identità del soggetto sorgente. Per affrontare questi problemi, presentiamo una nuova funzione di perdita di Rifocalizzazione dell'Attenzione abbinata a priori ausiliari, entrambe le quali facilitano un apprendimento robusto in questo contesto di apprendimento debolmente supervisionato. La nostra pipeline include anche ulteriori passaggi di post-elaborazione per garantire la creazione di output altamente realistici. MagiCapture supera altre baseline sia nelle valutazioni quantitative che qualitative e può anche essere generalizzato ad altri oggetti non umani.
English
Large-scale text-to-image models including Stable Diffusion are capable of
generating high-fidelity photorealistic portrait images. There is an active
research area dedicated to personalizing these models, aiming to synthesize
specific subjects or styles using provided sets of reference images. However,
despite the plausible results from these personalization methods, they tend to
produce images that often fall short of realism and are not yet on a
commercially viable level. This is particularly noticeable in portrait image
generation, where any unnatural artifact in human faces is easily discernible
due to our inherent human bias. To address this, we introduce MagiCapture, a
personalization method for integrating subject and style concepts to generate
high-resolution portrait images using just a few subject and style references.
For instance, given a handful of random selfies, our fine-tuned model can
generate high-quality portrait images in specific styles, such as passport or
profile photos. The main challenge with this task is the absence of ground
truth for the composed concepts, leading to a reduction in the quality of the
final output and an identity shift of the source subject. To address these
issues, we present a novel Attention Refocusing loss coupled with auxiliary
priors, both of which facilitate robust learning within this weakly supervised
learning setting. Our pipeline also includes additional post-processing steps
to ensure the creation of highly realistic outputs. MagiCapture outperforms
other baselines in both quantitative and qualitative evaluations and can also
be generalized to other non-human objects.