FitDiT: Avanzando en los Detalles Auténticos de la Ropa para la Prueba Virtual de Alta Fidelidad
FitDiT: Advancing the Authentic Garment Details for High-fidelity Virtual Try-on
November 15, 2024
Autores: Boyuan Jiang, Xiaobin Hu, Donghao Luo, Qingdong He, Chengming Xu, Jinlong Peng, Jiangning Zhang, Chengjie Wang, Yunsheng Wu, Yanwei Fu
cs.AI
Resumen
Aunque la prueba virtual de prendas basada en imágenes ha avanzado considerablemente, los enfoques emergentes aún enfrentan desafíos para producir imágenes de ajuste de alta fidelidad y robustas en diversos escenarios. Estos métodos a menudo tienen dificultades con problemas como el mantenimiento consciente de la textura y el ajuste consciente del tamaño, que obstaculizan su efectividad general. Para abordar estas limitaciones, proponemos una novedosa técnica de mejora de la percepción de prendas, denominada FitDiT, diseñada para la prueba virtual de alta fidelidad utilizando Transformadores de Difusión (DiT) que asignan más parámetros y atención a características de alta resolución. En primer lugar, para mejorar aún más el mantenimiento consciente de la textura, introducimos un extractor de textura de prendas que incorpora la evolución de prioridades de prendas para ajustar finamente la característica de la prenda, facilitando la captura de detalles ricos como rayas, patrones y texto. Además, introducimos el aprendizaje en el dominio de frecuencia mediante la personalización de una pérdida de distancia de frecuencia para mejorar los detalles de alta frecuencia de la prenda. Para abordar el problema del ajuste consciente del tamaño, empleamos una estrategia de máscara dilatada-relajada que se adapta a la longitud correcta de las prendas, evitando la generación de prendas que llenen toda el área de la máscara durante la prueba cruzada entre categorías. Equipado con el diseño anterior, FitDiT supera a todos los baselines en evaluaciones cualitativas y cuantitativas. Destaca en la producción de prendas bien ajustadas con detalles fotorrealistas e intrincados, al tiempo que logra tiempos de inferencia competitivos de 4.57 segundos para una sola imagen de 1024x768 después de reducir la estructura de DiT, superando a los métodos existentes.
English
Although image-based virtual try-on has made considerable progress, emerging
approaches still encounter challenges in producing high-fidelity and robust
fitting images across diverse scenarios. These methods often struggle with
issues such as texture-aware maintenance and size-aware fitting, which hinder
their overall effectiveness. To address these limitations, we propose a novel
garment perception enhancement technique, termed FitDiT, designed for
high-fidelity virtual try-on using Diffusion Transformers (DiT) allocating more
parameters and attention to high-resolution features. First, to further improve
texture-aware maintenance, we introduce a garment texture extractor that
incorporates garment priors evolution to fine-tune garment feature,
facilitating to better capture rich details such as stripes, patterns, and
text. Additionally, we introduce frequency-domain learning by customizing a
frequency distance loss to enhance high-frequency garment details. To tackle
the size-aware fitting issue, we employ a dilated-relaxed mask strategy that
adapts to the correct length of garments, preventing the generation of garments
that fill the entire mask area during cross-category try-on. Equipped with the
above design, FitDiT surpasses all baselines in both qualitative and
quantitative evaluations. It excels in producing well-fitting garments with
photorealistic and intricate details, while also achieving competitive
inference times of 4.57 seconds for a single 1024x768 image after DiT structure
slimming, outperforming existing methods.Summary
AI-Generated Summary