OOTDiffusion: Bekleidungsfusion basierte latente Diffusion für kontrollierbares virtuelles Anprobieren
OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable Virtual Try-on
March 4, 2024
Autoren: Yuhao Xu, Tao Gu, Weifeng Chen, Chengcai Chen
cs.AI
Zusammenfassung
Bildbasierte virtuelle Anprobe (Virtual Try-On, VTON), die darauf abzielt, ein bekleidetes Bild einer Zielperson in einem Ladenkleidungsstück zu erzeugen, ist eine anspruchsvolle Bildsyntheseaufgabe, die nicht nur eine hohe Detailtreue der bekleideten Person, sondern auch die vollständige Bewahrung der Kleidungsdetails erfordert. Um dieses Problem zu lösen, schlagen wir Outfitting over Try-on Diffusion (OOTDiffusion) vor, das die Leistungsfähigkeit vortrainierter latenter Diffusionsmodelle nutzt und eine neuartige Netzwerkarchitektur für realistische und kontrollierbare virtuelle Anprobe entwirft. Ohne einen expliziten Verzerrungsprozess schlagen wir ein Outfitting-UNet vor, um die Detailmerkmale des Kleidungsstücks zu erlernen und diese über unseren vorgeschlagenen Outfitting-Fusionsprozess mit dem Zielkörper während des Denoising-Prozesses der Diffusionsmodelle zu verschmelzen. Um die Kontrollierbarkeit unseres Outfitting-UNets weiter zu verbessern, führen wir Outfitting-Dropout in den Trainingsprozess ein, was es uns ermöglicht, die Stärke der Kleidungsmerkmale durch klassifikatorfreie Führung anzupassen. Unsere umfassenden Experimente auf den Datensätzen VITON-HD und Dress Code zeigen, dass OOTDiffusion effizient hochwertige bekleidete Bilder für beliebige Personen- und Kleidungsbilder erzeugt, was andere VTON-Methoden sowohl in Bezug auf die Detailtreue als auch die Kontrollierbarkeit übertrifft und damit einen beeindruckenden Durchbruch in der virtuellen Anprobe darstellt. Unser Quellcode ist verfügbar unter https://github.com/levihsu/OOTDiffusion.
English
Image-based virtual try-on (VTON), which aims to generate an outfitted image
of a target human wearing an in-shop garment, is a challenging image-synthesis
task calling for not only high fidelity of the outfitted human but also full
preservation of garment details. To tackle this issue, we propose Outfitting
over Try-on Diffusion (OOTDiffusion), leveraging the power of pretrained latent
diffusion models and designing a novel network architecture for realistic and
controllable virtual try-on. Without an explicit warping process, we propose an
outfitting UNet to learn the garment detail features, and merge them with the
target human body via our proposed outfitting fusion in the denoising process
of diffusion models. In order to further enhance the controllability of our
outfitting UNet, we introduce outfitting dropout to the training process, which
enables us to adjust the strength of garment features through classifier-free
guidance. Our comprehensive experiments on the VITON-HD and Dress Code datasets
demonstrate that OOTDiffusion efficiently generates high-quality outfitted
images for arbitrary human and garment images, which outperforms other VTON
methods in both fidelity and controllability, indicating an impressive
breakthrough in virtual try-on. Our source code is available at
https://github.com/levihsu/OOTDiffusion.