FitDiT: Развитие подлинных деталей одежды для высококачественной виртуальной примерки.
FitDiT: Advancing the Authentic Garment Details for High-fidelity Virtual Try-on
November 15, 2024
Авторы: Boyuan Jiang, Xiaobin Hu, Donghao Luo, Qingdong He, Chengming Xu, Jinlong Peng, Jiangning Zhang, Chengjie Wang, Yunsheng Wu, Yanwei Fu
cs.AI
Аннотация
Хотя основанные на изображениях виртуальные примерки одежды сделали значительный прогресс, новые подходы все еще сталкиваются с проблемами в создании изображений высокой точности и надежной подгонки в различных сценариях. Эти методы часто борются с проблемами, такими как поддержание особенностей текстуры и точная подгонка по размеру, что затрудняет их общую эффективность. Для решения этих ограничений мы предлагаем новую технику улучшения восприятия одежды, названную FitDiT, разработанную для виртуальной примерки с высокой точностью с использованием Диффузионных Трансформеров (DiT), распределяющих больше параметров и внимания на высокоразрешенные особенности. Во-первых, для дальнейшего улучшения поддержания особенностей текстуры мы вводим экстрактор текстуры одежды, который включает эволюцию априорных особенностей одежды для доработки особенностей одежды, что способствует лучшему захвату богатых деталей, таких как полосы, узоры и текст. Кроме того, мы вводим обучение в частотной области, настраивая потерю расстояния в частотной области для улучшения высокочастотных деталей одежды. Для решения проблемы точной подгонки по размеру мы используем стратегию расширенной маски с расслаблением, которая адаптируется к правильной длине одежды, предотвращая создание одежды, заполняющей всю область маски во время примерки между категориями. Оборудованный вышеуказанным дизайном, FitDiT превосходит все базовые методы как в качественной, так и в количественной оценке. Он отличается производством хорошо подогнанной одежды с фотореалистичными и сложными деталями, а также достигает конкурентоспособного времени вывода в 4,57 секунды для одного изображения размером 1024x768 после сокращения структуры DiT, превзойдя существующие методы.
English
Although image-based virtual try-on has made considerable progress, emerging
approaches still encounter challenges in producing high-fidelity and robust
fitting images across diverse scenarios. These methods often struggle with
issues such as texture-aware maintenance and size-aware fitting, which hinder
their overall effectiveness. To address these limitations, we propose a novel
garment perception enhancement technique, termed FitDiT, designed for
high-fidelity virtual try-on using Diffusion Transformers (DiT) allocating more
parameters and attention to high-resolution features. First, to further improve
texture-aware maintenance, we introduce a garment texture extractor that
incorporates garment priors evolution to fine-tune garment feature,
facilitating to better capture rich details such as stripes, patterns, and
text. Additionally, we introduce frequency-domain learning by customizing a
frequency distance loss to enhance high-frequency garment details. To tackle
the size-aware fitting issue, we employ a dilated-relaxed mask strategy that
adapts to the correct length of garments, preventing the generation of garments
that fill the entire mask area during cross-category try-on. Equipped with the
above design, FitDiT surpasses all baselines in both qualitative and
quantitative evaluations. It excels in producing well-fitting garments with
photorealistic and intricate details, while also achieving competitive
inference times of 4.57 seconds for a single 1024x768 image after DiT structure
slimming, outperforming existing methods.Summary
AI-Generated Summary