OOTDiffusion: Fusão de Vestuário Baseada em Difusão Latente para Experimentação Virtual Controlável
OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable Virtual Try-on
March 4, 2024
Autores: Yuhao Xu, Tao Gu, Weifeng Chen, Chengcai Chen
cs.AI
Resumo
O experimento de vestuário virtual baseado em imagens (VTON), que visa gerar uma imagem de uma pessoa vestindo uma peça de roupa de loja, é uma tarefa desafiadora de síntese de imagens que exige não apenas alta fidelidade da pessoa vestida, mas também a preservação completa dos detalhes da peça. Para abordar esse problema, propomos o Outfitting over Try-on Diffusion (OOTDiffusion), aproveitando o poder dos modelos de difusão latente pré-treinados e projetando uma nova arquitetura de rede para um experimento virtual realista e controlável. Sem um processo explícito de deformação, propomos um UNet de vestuário para aprender as características detalhadas da peça e integrá-las ao corpo humano alvo por meio de nossa fusão de vestuário proposta no processo de redução de ruído dos modelos de difusão. Para aprimorar ainda mais a controlabilidade do nosso UNet de vestuário, introduzimos o dropout de vestuário no processo de treinamento, o que nos permite ajustar a intensidade das características da peça por meio de orientação livre de classificador. Nossos experimentos abrangentes nos conjuntos de dados VITON-HD e Dress Code demonstram que o OOTDiffusion gera eficientemente imagens de alta qualidade de pessoas vestidas para qualquer imagem humana e de peça de roupa, superando outros métodos VTON tanto em fidelidade quanto em controlabilidade, indicando um avanço impressionante no experimento virtual. Nosso código-fonte está disponível em https://github.com/levihsu/OOTDiffusion.
English
Image-based virtual try-on (VTON), which aims to generate an outfitted image
of a target human wearing an in-shop garment, is a challenging image-synthesis
task calling for not only high fidelity of the outfitted human but also full
preservation of garment details. To tackle this issue, we propose Outfitting
over Try-on Diffusion (OOTDiffusion), leveraging the power of pretrained latent
diffusion models and designing a novel network architecture for realistic and
controllable virtual try-on. Without an explicit warping process, we propose an
outfitting UNet to learn the garment detail features, and merge them with the
target human body via our proposed outfitting fusion in the denoising process
of diffusion models. In order to further enhance the controllability of our
outfitting UNet, we introduce outfitting dropout to the training process, which
enables us to adjust the strength of garment features through classifier-free
guidance. Our comprehensive experiments on the VITON-HD and Dress Code datasets
demonstrate that OOTDiffusion efficiently generates high-quality outfitted
images for arbitrary human and garment images, which outperforms other VTON
methods in both fidelity and controllability, indicating an impressive
breakthrough in virtual try-on. Our source code is available at
https://github.com/levihsu/OOTDiffusion.