ChatPaper.aiChatPaper

MagiCapture : Personnalisation de portraits multi-concepts en haute résolution

MagiCapture: High-Resolution Multi-Concept Portrait Customization

September 13, 2023
Auteurs: Junha Hyung, Jaeyo Shin, Jaegul Choo
cs.AI

Résumé

Les modèles de génération d'images à partir de texte à grande échelle, tels que Stable Diffusion, sont capables de produire des portraits photoréalistes de haute fidélité. Un domaine de recherche actif est consacré à la personnalisation de ces modèles, visant à synthétiser des sujets ou des styles spécifiques à l'aide d'ensembles d'images de référence fournis. Cependant, malgré les résultats plausibles obtenus par ces méthodes de personnalisation, les images générées manquent souvent de réalisme et ne sont pas encore au niveau requis pour une utilisation commerciale. Cela est particulièrement visible dans la génération de portraits, où tout artefact non naturel sur les visages humains est facilement détectable en raison de notre biais humain inhérent. Pour remédier à cela, nous présentons MagiCapture, une méthode de personnalisation permettant d'intégrer des concepts de sujet et de style pour générer des portraits haute résolution à partir de seulement quelques références de sujet et de style. Par exemple, à partir d'une poignée de selfies aléatoires, notre modèle affiné peut générer des portraits de haute qualité dans des styles spécifiques, tels que des photos d'identité ou de profil. Le principal défi de cette tâche réside dans l'absence de vérité terrain pour les concepts composés, ce qui entraîne une réduction de la qualité de la sortie finale et un décalage d'identité du sujet source. Pour résoudre ces problèmes, nous proposons une nouvelle fonction de perte de Recentrage de l'Attention, associée à des priors auxiliaires, qui facilitent tous deux un apprentissage robuste dans ce cadre d'apprentissage faiblement supervisé. Notre pipeline inclut également des étapes de post-traitement supplémentaires pour garantir la création de sorties hautement réalistes. MagiCapture surpasse les autres méthodes de référence dans les évaluations quantitatives et qualitatives et peut également être généralisé à d'autres objets non humains.
English
Large-scale text-to-image models including Stable Diffusion are capable of generating high-fidelity photorealistic portrait images. There is an active research area dedicated to personalizing these models, aiming to synthesize specific subjects or styles using provided sets of reference images. However, despite the plausible results from these personalization methods, they tend to produce images that often fall short of realism and are not yet on a commercially viable level. This is particularly noticeable in portrait image generation, where any unnatural artifact in human faces is easily discernible due to our inherent human bias. To address this, we introduce MagiCapture, a personalization method for integrating subject and style concepts to generate high-resolution portrait images using just a few subject and style references. For instance, given a handful of random selfies, our fine-tuned model can generate high-quality portrait images in specific styles, such as passport or profile photos. The main challenge with this task is the absence of ground truth for the composed concepts, leading to a reduction in the quality of the final output and an identity shift of the source subject. To address these issues, we present a novel Attention Refocusing loss coupled with auxiliary priors, both of which facilitate robust learning within this weakly supervised learning setting. Our pipeline also includes additional post-processing steps to ensure the creation of highly realistic outputs. MagiCapture outperforms other baselines in both quantitative and qualitative evaluations and can also be generalized to other non-human objects.
PDF273December 15, 2024