MagiCapture: Hoogwaardige Multi-Concept Portretpersonalisatie
MagiCapture: High-Resolution Multi-Concept Portrait Customization
September 13, 2023
Auteurs: Junha Hyung, Jaeyo Shin, Jaegul Choo
cs.AI
Samenvatting
Grootschalige tekst-naar-beeldmodellen, waaronder Stable Diffusion, zijn in staat om hoogwaardige, fotorealistische portretafbeeldingen te genereren. Er is een actief onderzoeksgebied gewijd aan het personaliseren van deze modellen, met als doel specifieke onderwerpen of stijlen te synthetiseren met behulp van gegeven sets referentiebeelden. Ondanks de plausibele resultaten van deze personalisatiemethoden, produceren ze vaak beelden die tekortschieten in realisme en nog niet op een commercieel haalbaar niveau zijn. Dit is vooral merkbaar bij het genereren van portretafbeeldingen, waar elk onnatuurlijk artefact in menselijke gezichten gemakkelijk waarneembaar is vanwege onze inherente menselijke vooringenomenheid. Om dit aan te pakken, introduceren we MagiCapture, een personalisatiemethode voor het integreren van onderwerp- en stijlconcepten om hoogwaardige portretafbeeldingen te genereren met slechts een paar onderwerp- en stijlreferenties. Bijvoorbeeld, gegeven een handvol willekeurige selfies, kan ons fijn afgestemde model hoogwaardige portretafbeeldingen genereren in specifieke stijlen, zoals pasfoto's of profielfoto's. De grootste uitdaging bij deze taak is het ontbreken van een grondwaarheid voor de samengestelde concepten, wat leidt tot een vermindering van de kwaliteit van de uiteindelijke output en een verschuiving in de identiteit van het brononderwerp. Om deze problemen aan te pakken, presenteren we een nieuw Attention Refocusing-verlies in combinatie met aanvullende priors, die beide robuust leren mogelijk maken binnen deze zwak begeleide leeromgeving. Onze pijplijn omvat ook aanvullende nabewerkingsstappen om de creatie van zeer realistische outputs te garanderen. MagiCapture overtreft andere baselines in zowel kwantitatieve als kwalitatieve evaluaties en kan ook worden gegeneraliseerd naar andere niet-menselijke objecten.
English
Large-scale text-to-image models including Stable Diffusion are capable of
generating high-fidelity photorealistic portrait images. There is an active
research area dedicated to personalizing these models, aiming to synthesize
specific subjects or styles using provided sets of reference images. However,
despite the plausible results from these personalization methods, they tend to
produce images that often fall short of realism and are not yet on a
commercially viable level. This is particularly noticeable in portrait image
generation, where any unnatural artifact in human faces is easily discernible
due to our inherent human bias. To address this, we introduce MagiCapture, a
personalization method for integrating subject and style concepts to generate
high-resolution portrait images using just a few subject and style references.
For instance, given a handful of random selfies, our fine-tuned model can
generate high-quality portrait images in specific styles, such as passport or
profile photos. The main challenge with this task is the absence of ground
truth for the composed concepts, leading to a reduction in the quality of the
final output and an identity shift of the source subject. To address these
issues, we present a novel Attention Refocusing loss coupled with auxiliary
priors, both of which facilitate robust learning within this weakly supervised
learning setting. Our pipeline also includes additional post-processing steps
to ensure the creation of highly realistic outputs. MagiCapture outperforms
other baselines in both quantitative and qualitative evaluations and can also
be generalized to other non-human objects.