EVTAR: 追加の非ペア視覚参照を用いたエンドツーエンド仮想試着
EVTAR: End-to-End Try on with Additional Unpaired Visual Reference
November 2, 2025
著者: Liuzhuozheng Li, Yue Gong, Shanyuan Liu, Bo Cheng, Yuhang Ma, Liebucha Wu, Dengyang Jiang, Zanyi Wang, Dawei Leng, Yuhui Yin
cs.AI
要旨
本論文では、追加の参照画像を活用して試着精度を向上させながら、対象の衣服を人物画像に直接適合させるEnd-to-End仮想試着モデル「EVTAR」を提案する。既存の仮想試着手法の多くは、非関手的人物画像、人物姿勢、DensePose、身体キーポイントなど複雑な入力に依存しており、労力を要するため実世界への応用が困難である。これに対し、EVTARは2段階の学習戦略を採用し、ソース画像と対象衣服のみを入力とする簡便な推論を実現する。本モデルは、マスクやDensePose、セグメンテーションマップを必要とせずに試着結果を生成する。さらに、EVTARは同じ衣服を着用した異なる人物の参照画像を追加で活用し、衣服のテクスチャや微細なディテールをより忠実に保持する。このメカニズムは、人間が服装を選ぶ際に参考モデルを考慮する方法に類似しており、より現実的で高品質な着装効果をシミュレートする。これらの機能をサポートするため、補助的な参照画像と非対応の人物画像を訓練データに追加して拡充した。EVTARを2つの広く使用されているベンチマークと多様なタスクで評価し、その結果から本手法の有効性を一貫して実証した。
English
We propose EVTAR, an End-to-End Virtual Try-on model with Additional
Reference, that directly fits the target garment onto the person image while
incorporating reference images to enhance try-on accuracy. Most existing
virtual try-on approaches rely on complex inputs such as agnostic person
images, human pose, densepose, or body keypoints, making them labor-intensive
and impractical for real-world applications. In contrast, EVTAR adopts a
two-stage training strategy, enabling simple inference with only the source
image and the target garment inputs. Our model generates try-on results without
masks, densepose, or segmentation maps. Moreover, EVTAR leverages additional
reference images of different individuals wearing the same clothes to preserve
garment texture and fine-grained details better. This mechanism is analogous to
how humans consider reference models when choosing outfits, thereby simulating
a more realistic and high-quality dressing effect. We enrich the training data
with supplementary references and unpaired person images to support these
capabilities. We evaluate EVTAR on two widely used benchmarks and diverse
tasks, and the results consistently validate the effectiveness of our approach.