MagiCapture: Personalizzazione di Ritratti Multi-Concetto ad Alta Risoluzione

Abstract

I modelli su larga scala di generazione di immagini da testo, come Stable Diffusion, sono in grado di produrre immagini ritratto fotorealistiche ad alta fedeltà. Esiste un'area di ricerca attiva dedicata alla personalizzazione di questi modelli, con l'obiettivo di sintetizzare soggetti o stili specifici utilizzando insiemi di immagini di riferimento forniti. Tuttavia, nonostante i risultati plausibili ottenuti da questi metodi di personalizzazione, tendono a produrre immagini che spesso non raggiungono il realismo e non sono ancora a un livello commercialmente valido. Questo è particolarmente evidente nella generazione di immagini ritratto, dove qualsiasi artefatto innaturale nei volti umani è facilmente riconoscibile a causa del nostro pregiudizio umano intrinseco. Per affrontare questo problema, introduciamo MagiCapture, un metodo di personalizzazione per integrare concetti di soggetto e stile al fine di generare immagini ritratto ad alta risoluzione utilizzando solo pochi riferimenti di soggetto e stile. Ad esempio, data una manciata di selfie casuali, il nostro modello fine-tuned può generare immagini ritratto di alta qualità in stili specifici, come foto per passaporto o profilo. La principale sfida di questo compito è l'assenza di una verità di base per i concetti composti, che porta a una riduzione della qualità dell'output finale e a uno spostamento dell'identità del soggetto sorgente. Per affrontare questi problemi, presentiamo una nuova funzione di perdita di Rifocalizzazione dell'Attenzione abbinata a priori ausiliari, entrambe le quali facilitano un apprendimento robusto in questo contesto di apprendimento debolmente supervisionato. La nostra pipeline include anche ulteriori passaggi di post-elaborazione per garantire la creazione di output altamente realistici. MagiCapture supera altre baseline sia nelle valutazioni quantitative che qualitative e può anche essere generalizzato ad altri oggetti non umani.

English

Large-scale text-to-image models including Stable Diffusion are capable of generating high-fidelity photorealistic portrait images. There is an active research area dedicated to personalizing these models, aiming to synthesize specific subjects or styles using provided sets of reference images. However, despite the plausible results from these personalization methods, they tend to produce images that often fall short of realism and are not yet on a commercially viable level. This is particularly noticeable in portrait image generation, where any unnatural artifact in human faces is easily discernible due to our inherent human bias. To address this, we introduce MagiCapture, a personalization method for integrating subject and style concepts to generate high-resolution portrait images using just a few subject and style references. For instance, given a handful of random selfies, our fine-tuned model can generate high-quality portrait images in specific styles, such as passport or profile photos. The main challenge with this task is the absence of ground truth for the composed concepts, leading to a reduction in the quality of the final output and an identity shift of the source subject. To address these issues, we present a novel Attention Refocusing loss coupled with auxiliary priors, both of which facilitate robust learning within this weakly supervised learning setting. Our pipeline also includes additional post-processing steps to ensure the creation of highly realistic outputs. MagiCapture outperforms other baselines in both quantitative and qualitative evaluations and can also be generalized to other non-human objects.

MagiCapture: Personalizzazione di Ritratti Multi-Concetto ad Alta Risoluzione

MagiCapture: High-Resolution Multi-Concept Portrait Customization

Abstract

Support