OOTDiffusion: Обеспечение слияния на основе диффузии скрытых переменных для управляемой виртуальной примерки.
OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable Virtual Try-on
March 4, 2024
Авторы: Yuhao Xu, Tao Gu, Weifeng Chen, Chengcai Chen
cs.AI
Аннотация
Виртуальная примерка на основе изображений (VTON), цель которой - создание изображения целевого человека, одетого в одежду из магазина, представляет собой сложную задачу синтеза изображений, требующую не только высокой достоверности изображения одетого человека, но и полного сохранения деталей одежды. Для решения этой проблемы мы предлагаем метод Outfitting over Try-on Diffusion (OOTDiffusion), использующий мощь предварительно обученных моделей диффузии и разрабатывающий новую архитектуру сети для реалистичной и управляемой виртуальной примерки. Без явного процесса искажения, мы предлагаем модель outfitting UNet для изучения особенностей деталей одежды и их слияния с телом целевого человека через наше предложенное объединение outfitting в процессе размытия моделей диффузии. Для дальнейшего улучшения управляемости нашей модели outfitting UNet мы вводим dropout для outfitting в процесс обучения, что позволяет нам регулировать силу особенностей одежды через руководство без классификатора. Наши всеобъемлющие эксперименты на наборах данных VITON-HD и Dress Code показывают, что OOTDiffusion эффективно создает изображения с высоким качеством одежды для произвольных изображений человека и одежды, превосходя другие методы VTON как по достоверности, так и по управляемости, что указывает на впечатляющий прорыв в виртуальной примерке. Наш исходный код доступен по ссылке https://github.com/levihsu/OOTDiffusion.
English
Image-based virtual try-on (VTON), which aims to generate an outfitted image
of a target human wearing an in-shop garment, is a challenging image-synthesis
task calling for not only high fidelity of the outfitted human but also full
preservation of garment details. To tackle this issue, we propose Outfitting
over Try-on Diffusion (OOTDiffusion), leveraging the power of pretrained latent
diffusion models and designing a novel network architecture for realistic and
controllable virtual try-on. Without an explicit warping process, we propose an
outfitting UNet to learn the garment detail features, and merge them with the
target human body via our proposed outfitting fusion in the denoising process
of diffusion models. In order to further enhance the controllability of our
outfitting UNet, we introduce outfitting dropout to the training process, which
enables us to adjust the strength of garment features through classifier-free
guidance. Our comprehensive experiments on the VITON-HD and Dress Code datasets
demonstrate that OOTDiffusion efficiently generates high-quality outfitted
images for arbitrary human and garment images, which outperforms other VTON
methods in both fidelity and controllability, indicating an impressive
breakthrough in virtual try-on. Our source code is available at
https://github.com/levihsu/OOTDiffusion.