ChatPaper.aiChatPaper

OOTDiffusion : Fusion d'habillage basée sur la diffusion latente pour un essayage virtuel contrôlable

OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable Virtual Try-on

March 4, 2024
Auteurs: Yuhao Xu, Tao Gu, Weifeng Chen, Chengcai Chen
cs.AI

Résumé

L'essayage virtuel basé sur l'image (VTON), qui vise à générer une image d'une personne cible portant un vêtement en boutique, est une tâche complexe de synthèse d'image nécessitant non seulement une haute fidélité de la personne habillée, mais aussi une préservation complète des détails du vêtement. Pour résoudre ce problème, nous proposons Outfitting over Try-on Diffusion (OOTDiffusion), exploitant la puissance des modèles de diffusion latente pré-entraînés et concevant une architecture de réseau novatrice pour un essai virtuel réaliste et contrôlable. Sans processus de déformation explicite, nous proposons un UNet d'habillage pour apprendre les caractéristiques détaillées du vêtement, et les fusionner avec le corps humain cible via notre fusion d'habillage proposée dans le processus de débruitage des modèles de diffusion. Afin d'améliorer davantage la contrôlabilité de notre UNet d'habillage, nous introduisons un abandon d'habillage lors du processus d'entraînement, ce qui nous permet d'ajuster l'intensité des caractéristiques du vêtement grâce à un guidage sans classifieur. Nos expériences approfondies sur les ensembles de données VITON-HD et Dress Code démontrent qu'OOTDiffusion génère efficacement des images habillées de haute qualité pour des images arbitraires de personnes et de vêtements, surpassant les autres méthodes VTON en termes de fidélité et de contrôlabilité, marquant ainsi une avancée impressionnante dans l'essayage virtuel. Notre code source est disponible à l'adresse https://github.com/levihsu/OOTDiffusion.
English
Image-based virtual try-on (VTON), which aims to generate an outfitted image of a target human wearing an in-shop garment, is a challenging image-synthesis task calling for not only high fidelity of the outfitted human but also full preservation of garment details. To tackle this issue, we propose Outfitting over Try-on Diffusion (OOTDiffusion), leveraging the power of pretrained latent diffusion models and designing a novel network architecture for realistic and controllable virtual try-on. Without an explicit warping process, we propose an outfitting UNet to learn the garment detail features, and merge them with the target human body via our proposed outfitting fusion in the denoising process of diffusion models. In order to further enhance the controllability of our outfitting UNet, we introduce outfitting dropout to the training process, which enables us to adjust the strength of garment features through classifier-free guidance. Our comprehensive experiments on the VITON-HD and Dress Code datasets demonstrate that OOTDiffusion efficiently generates high-quality outfitted images for arbitrary human and garment images, which outperforms other VTON methods in both fidelity and controllability, indicating an impressive breakthrough in virtual try-on. Our source code is available at https://github.com/levihsu/OOTDiffusion.
PDF312December 15, 2024