FitDiT: 高忠実度仮想試着のための正確な衣服詳細の向上
FitDiT: Advancing the Authentic Garment Details for High-fidelity Virtual Try-on
November 15, 2024
著者: Boyuan Jiang, Xiaobin Hu, Donghao Luo, Qingdong He, Chengming Xu, Jinlong Peng, Jiangning Zhang, Chengjie Wang, Yunsheng Wu, Yanwei Fu
cs.AI
要旨
画像ベースの仮想試着はかなり進歩していますが、新興手法は依然として多様なシナリオで高品質かつ堅牢な適合画像を生成する際に課題に直面しています。これらの手法は、しばしばテクスチャに注意を払ったメンテナンスやサイズに注意を払ったフィッティングなどの問題に苦しんでおり、その全体的な効果を妨げています。これらの制限に対処するために、私たちは高品質な仮想試着のために設計された新しい衣類認識強化技術であるFitDiTを提案します。この技術はDiffusion Transformers(DiT)を使用し、高解像度の特徴により多くのパラメータと注意を割り当てます。まず、テクスチャに注意を払ったメンテナンスをさらに向上させるために、衣類テクスチャ抽出器を導入し、衣類事前条件の進化を取り入れて衣類特徴を微調整し、ストライプ、パターン、テキストなどの豊富な詳細をよりよく捉えるのを容易にします。さらに、高周波数の衣類詳細を強化するために、周波数領域学習を導入し、周波数距離損失をカスタマイズします。サイズに注意を払ったフィッティングの問題に対処するために、適切な長さの衣類に適応する拡張緩和マスク戦略を採用し、クロスカテゴリの試着中にマスク領域全体を埋める衣類の生成を防ぎます。上記の設計を備えたFitDiTは、定性的および定量的評価の両方ですべてのベースラインを凌駕しています。この技術は、写実的で複雑な詳細を持つ適合の良い衣類を生成する点で優れており、また、DiT構造の最適化後に1024x768の単一画像に対して4.57秒の競争力のある推論時間を達成し、既存の手法を上回っています。
English
Although image-based virtual try-on has made considerable progress, emerging
approaches still encounter challenges in producing high-fidelity and robust
fitting images across diverse scenarios. These methods often struggle with
issues such as texture-aware maintenance and size-aware fitting, which hinder
their overall effectiveness. To address these limitations, we propose a novel
garment perception enhancement technique, termed FitDiT, designed for
high-fidelity virtual try-on using Diffusion Transformers (DiT) allocating more
parameters and attention to high-resolution features. First, to further improve
texture-aware maintenance, we introduce a garment texture extractor that
incorporates garment priors evolution to fine-tune garment feature,
facilitating to better capture rich details such as stripes, patterns, and
text. Additionally, we introduce frequency-domain learning by customizing a
frequency distance loss to enhance high-frequency garment details. To tackle
the size-aware fitting issue, we employ a dilated-relaxed mask strategy that
adapts to the correct length of garments, preventing the generation of garments
that fill the entire mask area during cross-category try-on. Equipped with the
above design, FitDiT surpasses all baselines in both qualitative and
quantitative evaluations. It excels in producing well-fitting garments with
photorealistic and intricate details, while also achieving competitive
inference times of 4.57 seconds for a single 1024x768 image after DiT structure
slimming, outperforming existing methods.Summary
AI-Generated Summary