ChatPaper.aiChatPaper

MagiCapture: Высококачественная настройка портретов с поддержкой нескольких концепций

MagiCapture: High-Resolution Multi-Concept Portrait Customization

September 13, 2023
Авторы: Junha Hyung, Jaeyo Shin, Jaegul Choo
cs.AI

Аннотация

Крупномасштабные модели преобразования текста в изображение, такие как Stable Diffusion, способны генерировать фотореалистичные портретные изображения высокой точности. Активная область исследований посвящена персонализации этих моделей, направленной на синтез конкретных объектов или стилей с использованием предоставленных наборов референсных изображений. Однако, несмотря на правдоподобные результаты, полученные с помощью этих методов персонализации, они часто создают изображения, которые не достигают уровня реализма и пока не соответствуют коммерчески пригодным стандартам. Это особенно заметно в генерации портретных изображений, где любые неестественные артефакты на человеческих лицах легко распознаются из-за нашей врожденной человеческой предвзятости. Для решения этой проблемы мы представляем MagiCapture — метод персонализации, который интегрирует концепции объекта и стиля для генерации высококачественных портретных изображений с использованием всего нескольких референсов объекта и стиля. Например, имея несколько случайных селфи, наша доработанная модель может генерировать высококачественные портретные изображения в определенных стилях, таких как фотографии для паспорта или профиля. Основная сложность этой задачи заключается в отсутствии эталонных данных для составленных концепций, что приводит к снижению качества конечного результата и смещению идентичности исходного объекта. Для решения этих проблем мы предлагаем новый метод потери внимания с перефокусировкой (Attention Refocusing loss) в сочетании с вспомогательными априорными знаниями, которые способствуют устойчивому обучению в условиях слабого обучения с учителем. Наш процесс также включает дополнительные этапы постобработки для обеспечения создания высокореалистичных результатов. MagiCapture превосходит другие базовые методы как в количественных, так и в качественных оценках и может быть обобщен на другие нечеловеческие объекты.
English
Large-scale text-to-image models including Stable Diffusion are capable of generating high-fidelity photorealistic portrait images. There is an active research area dedicated to personalizing these models, aiming to synthesize specific subjects or styles using provided sets of reference images. However, despite the plausible results from these personalization methods, they tend to produce images that often fall short of realism and are not yet on a commercially viable level. This is particularly noticeable in portrait image generation, where any unnatural artifact in human faces is easily discernible due to our inherent human bias. To address this, we introduce MagiCapture, a personalization method for integrating subject and style concepts to generate high-resolution portrait images using just a few subject and style references. For instance, given a handful of random selfies, our fine-tuned model can generate high-quality portrait images in specific styles, such as passport or profile photos. The main challenge with this task is the absence of ground truth for the composed concepts, leading to a reduction in the quality of the final output and an identity shift of the source subject. To address these issues, we present a novel Attention Refocusing loss coupled with auxiliary priors, both of which facilitate robust learning within this weakly supervised learning setting. Our pipeline also includes additional post-processing steps to ensure the creation of highly realistic outputs. MagiCapture outperforms other baselines in both quantitative and qualitative evaluations and can also be generalized to other non-human objects.
PDF273December 15, 2024