OOTDiffusion: Diffusione Latente basata su Fusione di Abbigliamento per il Virtual Try-on Controllabile
OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable Virtual Try-on
March 4, 2024
Autori: Yuhao Xu, Tao Gu, Weifeng Chen, Chengcai Chen
cs.AI
Abstract
Il virtual try-on basato su immagini (VTON), che mira a generare un'immagine di una persona target che indossa un capo d'abbigliamento in negozio, è un compito di sintesi di immagini impegnativo che richiede non solo un'elevata fedeltà della persona vestita, ma anche la piena conservazione dei dettagli del capo. Per affrontare questo problema, proponiamo Outfitting over Try-on Diffusion (OOTDiffusion), sfruttando la potenza dei modelli di diffusione latente pre-addestrati e progettando una nuova architettura di rete per un virtual try-on realistico e controllabile. Senza un processo esplicito di deformazione, proponiamo un outfitting UNet per apprendere le caratteristiche dei dettagli del capo e combinarle con il corpo umano target tramite la nostra proposta di fusione di outfitting nel processo di denoising dei modelli di diffusione. Per migliorare ulteriormente la controllabilità del nostro outfitting UNet, introduciamo l'outfitting dropout nel processo di addestramento, che ci consente di regolare l'intensità delle caratteristiche del capo attraverso la guida senza classificatore. I nostri esperimenti completi sui dataset VITON-HD e Dress Code dimostrano che OOTDiffusion genera in modo efficiente immagini di alta qualità di persone vestite per immagini arbitrarie di esseri umani e capi d'abbigliamento, superando altri metodi VTON sia in termini di fedeltà che di controllabilità, indicando un impressionante progresso nel virtual try-on. Il nostro codice sorgente è disponibile all'indirizzo https://github.com/levihsu/OOTDiffusion.
English
Image-based virtual try-on (VTON), which aims to generate an outfitted image
of a target human wearing an in-shop garment, is a challenging image-synthesis
task calling for not only high fidelity of the outfitted human but also full
preservation of garment details. To tackle this issue, we propose Outfitting
over Try-on Diffusion (OOTDiffusion), leveraging the power of pretrained latent
diffusion models and designing a novel network architecture for realistic and
controllable virtual try-on. Without an explicit warping process, we propose an
outfitting UNet to learn the garment detail features, and merge them with the
target human body via our proposed outfitting fusion in the denoising process
of diffusion models. In order to further enhance the controllability of our
outfitting UNet, we introduce outfitting dropout to the training process, which
enables us to adjust the strength of garment features through classifier-free
guidance. Our comprehensive experiments on the VITON-HD and Dress Code datasets
demonstrate that OOTDiffusion efficiently generates high-quality outfitted
images for arbitrary human and garment images, which outperforms other VTON
methods in both fidelity and controllability, indicating an impressive
breakthrough in virtual try-on. Our source code is available at
https://github.com/levihsu/OOTDiffusion.