ChatPaper.aiChatPaper

MagiCapture: Hochauflösende Multi-Konzept-Porträtanpassung

MagiCapture: High-Resolution Multi-Concept Portrait Customization

September 13, 2023
Autoren: Junha Hyung, Jaeyo Shin, Jaegul Choo
cs.AI

Zusammenfassung

Groß angelegte Text-zu-Bild-Modelle wie Stable Diffusion sind in der Lage, hochauflösende, fotorealistische Porträtbilder zu erzeugen. Es gibt einen aktiven Forschungsbereich, der sich der Personalisierung dieser Modelle widmet, mit dem Ziel, spezifische Subjekte oder Stile anhand bereitgestellter Referenzbilder zu synthetisieren. Trotz der plausiblen Ergebnisse dieser Personalisierungsmethoden neigen sie jedoch dazu, Bilder zu erzeugen, die oft an Realismus mangeln und noch nicht auf einem kommerziell verwertbaren Niveau liegen. Dies ist besonders bei der Porträtbildgenerierung auffällig, da jedes unnatürliche Artefakt in menschlichen Gesichtern aufgrund unserer angeborenen menschlichen Voreingenommenheit leicht erkennbar ist. Um dies zu beheben, stellen wir MagiCapture vor, eine Personalisierungsmethode zur Integration von Subjekt- und Stilkonzepten, um hochauflösende Porträtbilder mit nur wenigen Subjekt- und Stilreferenzen zu erzeugen. Zum Beispiel kann unser feinabgestimmtes Modell, basierend auf einer Handvoll zufälliger Selfies, hochwertige Porträtbilder in bestimmten Stilen wie Passfotos oder Profilbilder generieren. Die Hauptherausforderung bei dieser Aufgabe ist das Fehlen von Ground-Truth-Daten für die zusammengesetzten Konzepte, was zu einer Verringerung der Qualität des endgültigen Outputs und einer Identitätsverschiebung des ursprünglichen Subjekts führt. Um diese Probleme zu lösen, präsentieren wir einen neuartigen Attention Refocusing Loss in Kombination mit zusätzlichen Prioritäten, die beide ein robustes Lernen in diesem schwach überwachten Lernsetting ermöglichen. Unsere Pipeline umfasst auch zusätzliche Nachbearbeitungsschritte, um die Erstellung hochrealistischer Ergebnisse sicherzustellen. MagiCapture übertrifft andere Baseline-Methoden sowohl in quantitativen als auch in qualitativen Bewertungen und kann auch auf andere nicht-menschliche Objekte verallgemeinert werden.
English
Large-scale text-to-image models including Stable Diffusion are capable of generating high-fidelity photorealistic portrait images. There is an active research area dedicated to personalizing these models, aiming to synthesize specific subjects or styles using provided sets of reference images. However, despite the plausible results from these personalization methods, they tend to produce images that often fall short of realism and are not yet on a commercially viable level. This is particularly noticeable in portrait image generation, where any unnatural artifact in human faces is easily discernible due to our inherent human bias. To address this, we introduce MagiCapture, a personalization method for integrating subject and style concepts to generate high-resolution portrait images using just a few subject and style references. For instance, given a handful of random selfies, our fine-tuned model can generate high-quality portrait images in specific styles, such as passport or profile photos. The main challenge with this task is the absence of ground truth for the composed concepts, leading to a reduction in the quality of the final output and an identity shift of the source subject. To address these issues, we present a novel Attention Refocusing loss coupled with auxiliary priors, both of which facilitate robust learning within this weakly supervised learning setting. Our pipeline also includes additional post-processing steps to ensure the creation of highly realistic outputs. MagiCapture outperforms other baselines in both quantitative and qualitative evaluations and can also be generalized to other non-human objects.
PDF273December 15, 2024