OOTDiffusion: Latente diffusie gebaseerd op outfitfusie voor beheersbaar virtueel passen
OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable Virtual Try-on
March 4, 2024
Auteurs: Yuhao Xu, Tao Gu, Weifeng Chen, Chengcai Chen
cs.AI
Samenvatting
Op afbeeldingen gebaseerd virtueel passen (VTON), dat als doel heeft een aangeklede afbeelding te genereren van een doelpersoon die een winkelkledingstuk draagt, is een uitdagende taak in beeld-synthese die niet alleen een hoge geloofwaardigheid van de aangeklede persoon vereist, maar ook het volledige behoud van kledingdetails. Om dit probleem aan te pakken, stellen we Outfitting over Try-on Diffusion (OOTDiffusion) voor, waarbij we gebruikmaken van de kracht van vooraf getrainde latente diffusiemodellen en een nieuwe netwerkarchitectuur ontwerpen voor realistische en controleerbare virtuele pasvorm. Zonder een expliciet vervormingsproces stellen we een outfitting UNet voor om de detailkenmerken van het kledingstuk te leren, en deze te combineren met het doelmenselijk lichaam via onze voorgestelde outfitting-fusie in het ruisverwijderingsproces van diffusiemodellen. Om de controleerbaarheid van ons outfitting UNet verder te verbeteren, introduceren we outfitting dropout in het trainingsproces, waardoor we de sterkte van de kledingkenmerken kunnen aanpassen via classifier-free guidance. Onze uitgebreide experimenten op de VITON-HD en Dress Code datasets tonen aan dat OOTDiffusion efficiënt hoogwaardige aangeklede afbeeldingen genereert voor willekeurige menselijke en kledingafbeeldingen, wat andere VTON-methoden overtreft in zowel geloofwaardigheid als controleerbaarheid, wat wijst op een indrukwekkende doorbraak in virtueel passen. Onze broncode is beschikbaar op https://github.com/levihsu/OOTDiffusion.
English
Image-based virtual try-on (VTON), which aims to generate an outfitted image
of a target human wearing an in-shop garment, is a challenging image-synthesis
task calling for not only high fidelity of the outfitted human but also full
preservation of garment details. To tackle this issue, we propose Outfitting
over Try-on Diffusion (OOTDiffusion), leveraging the power of pretrained latent
diffusion models and designing a novel network architecture for realistic and
controllable virtual try-on. Without an explicit warping process, we propose an
outfitting UNet to learn the garment detail features, and merge them with the
target human body via our proposed outfitting fusion in the denoising process
of diffusion models. In order to further enhance the controllability of our
outfitting UNet, we introduce outfitting dropout to the training process, which
enables us to adjust the strength of garment features through classifier-free
guidance. Our comprehensive experiments on the VITON-HD and Dress Code datasets
demonstrate that OOTDiffusion efficiently generates high-quality outfitted
images for arbitrary human and garment images, which outperforms other VTON
methods in both fidelity and controllability, indicating an impressive
breakthrough in virtual try-on. Our source code is available at
https://github.com/levihsu/OOTDiffusion.