FitDiT: Avançando os Detalhes Autênticos das Roupas para Experimentação Virtual de Alta Fidelidade
FitDiT: Advancing the Authentic Garment Details for High-fidelity Virtual Try-on
November 15, 2024
Autores: Boyuan Jiang, Xiaobin Hu, Donghao Luo, Qingdong He, Chengming Xu, Jinlong Peng, Jiangning Zhang, Chengjie Wang, Yunsheng Wu, Yanwei Fu
cs.AI
Resumo
Embora a prova virtual baseada em imagens tenha avançado consideravelmente, abordagens emergentes ainda enfrentam desafios na produção de imagens de ajuste de alta fidelidade e robustas em diversos cenários. Esses métodos frequentemente enfrentam problemas como manutenção consciente de textura e ajuste consciente de tamanho, que prejudicam sua eficácia geral. Para lidar com essas limitações, propomos uma nova técnica de aprimoramento de percepção de vestuário, denominada FitDiT, projetada para prova virtual de alta fidelidade usando Transformadores de Difusão (DiT) alocando mais parâmetros e atenção a características de alta resolução. Primeiramente, para melhorar ainda mais a manutenção consciente de textura, introduzimos um extrator de textura de vestuário que incorpora evolução de prioridades de vestuário para ajustar finamente a característica do vestuário, facilitando a captura de detalhes ricos como listras, padrões e texto. Além disso, introduzimos aprendizado de domínio de frequência personalizando uma perda de distância de frequência para aprimorar detalhes de vestuário de alta frequência. Para lidar com a questão do ajuste consciente de tamanho, empregamos uma estratégia de máscara dilatada-relaxada que se adapta ao comprimento correto do vestuário, impedindo a geração de vestuários que preencham toda a área da máscara durante a prova entre categorias. Equipado com o design acima, o FitDiT supera todos os baselines em avaliações qualitativas e quantitativas. Ele se destaca na produção de vestuários bem ajustados com detalhes fotorrealistas e intrincados, ao mesmo tempo que alcança tempos de inferência competitivos de 4,57 segundos para uma única imagem de 1024x768 após o enxugamento da estrutura DiT, superando os métodos existentes.
English
Although image-based virtual try-on has made considerable progress, emerging
approaches still encounter challenges in producing high-fidelity and robust
fitting images across diverse scenarios. These methods often struggle with
issues such as texture-aware maintenance and size-aware fitting, which hinder
their overall effectiveness. To address these limitations, we propose a novel
garment perception enhancement technique, termed FitDiT, designed for
high-fidelity virtual try-on using Diffusion Transformers (DiT) allocating more
parameters and attention to high-resolution features. First, to further improve
texture-aware maintenance, we introduce a garment texture extractor that
incorporates garment priors evolution to fine-tune garment feature,
facilitating to better capture rich details such as stripes, patterns, and
text. Additionally, we introduce frequency-domain learning by customizing a
frequency distance loss to enhance high-frequency garment details. To tackle
the size-aware fitting issue, we employ a dilated-relaxed mask strategy that
adapts to the correct length of garments, preventing the generation of garments
that fill the entire mask area during cross-category try-on. Equipped with the
above design, FitDiT surpasses all baselines in both qualitative and
quantitative evaluations. It excels in producing well-fitting garments with
photorealistic and intricate details, while also achieving competitive
inference times of 4.57 seconds for a single 1024x768 image after DiT structure
slimming, outperforming existing methods.Summary
AI-Generated Summary