OOTDiffusion: Difusión Latente basada en Fusión de Vestimenta para Pruebas Virtuales Controlables
OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable Virtual Try-on
March 4, 2024
Autores: Yuhao Xu, Tao Gu, Weifeng Chen, Chengcai Chen
cs.AI
Resumen
El "virtual try-on" basado en imágenes (VTON), que tiene como objetivo generar una imagen de una persona objetivo vistiendo una prenda de una tienda, es una tarea desafiante de síntesis de imágenes que requiere no solo una alta fidelidad de la persona vestida, sino también la preservación completa de los detalles de la prenda. Para abordar este problema, proponemos Outfitting over Try-on Diffusion (OOTDiffusion), aprovechando el poder de los modelos de difusión latente preentrenados y diseñando una arquitectura de red novedosa para un "virtual try-on" realista y controlable. Sin un proceso de deformación explícito, proponemos un UNet de vestimenta para aprender las características detalladas de la prenda y fusionarlas con el cuerpo humano objetivo mediante nuestra propuesta de fusión de vestimenta en el proceso de eliminación de ruido de los modelos de difusión. Para mejorar aún más la controlabilidad de nuestro UNet de vestimenta, introducimos el "outfitting dropout" en el proceso de entrenamiento, lo que nos permite ajustar la intensidad de las características de la prenda mediante guía libre de clasificador. Nuestros experimentos exhaustivos en los conjuntos de datos VITON-HD y Dress Code demuestran que OOTDiffusion genera eficientemente imágenes de alta calidad de personas vestidas para cualquier imagen humana y de prenda, superando a otros métodos VTON tanto en fidelidad como en controlabilidad, lo que indica un avance impresionante en el "virtual try-on". Nuestro código fuente está disponible en https://github.com/levihsu/OOTDiffusion.
English
Image-based virtual try-on (VTON), which aims to generate an outfitted image
of a target human wearing an in-shop garment, is a challenging image-synthesis
task calling for not only high fidelity of the outfitted human but also full
preservation of garment details. To tackle this issue, we propose Outfitting
over Try-on Diffusion (OOTDiffusion), leveraging the power of pretrained latent
diffusion models and designing a novel network architecture for realistic and
controllable virtual try-on. Without an explicit warping process, we propose an
outfitting UNet to learn the garment detail features, and merge them with the
target human body via our proposed outfitting fusion in the denoising process
of diffusion models. In order to further enhance the controllability of our
outfitting UNet, we introduce outfitting dropout to the training process, which
enables us to adjust the strength of garment features through classifier-free
guidance. Our comprehensive experiments on the VITON-HD and Dress Code datasets
demonstrate that OOTDiffusion efficiently generates high-quality outfitted
images for arbitrary human and garment images, which outperforms other VTON
methods in both fidelity and controllability, indicating an impressive
breakthrough in virtual try-on. Our source code is available at
https://github.com/levihsu/OOTDiffusion.