EVTAR : Essayage de Bout en Bout avec Référence Visuelle Non Appariée Supplémentaire
EVTAR: End-to-End Try on with Additional Unpaired Visual Reference
November 2, 2025
papers.authors: Liuzhuozheng Li, Yue Gong, Shanyuan Liu, Bo Cheng, Yuhang Ma, Liebucha Wu, Dengyang Jiang, Zanyi Wang, Dawei Leng, Yuhui Yin
cs.AI
papers.abstract
Nous proposons EVTAR, un modèle d'essayage virtuel de bout en bout avec référence additionnelle, qui ajuste directement le vêtement cible sur l'image de la personne tout en incorporant des images de référence pour améliorer la précision de l'essayage. La plupart des approches existantes d'essayage virtuel reposent sur des entrées complexes telles que des images de personnes agnostiques, la pose humaine, le densepose ou les points clés du corps, ce qui les rend laborieuses et peu pratiques pour les applications réelles. En revanche, EVTAR adopte une stratégie d'apprentissage en deux étapes, permettant une inférence simple avec uniquement l'image source et les vêtements cibles en entrée. Notre modèle génère des résultats d'essayage sans masques, sans densepose ni cartes de segmentation. De plus, EVTAR exploite des images de référence additionnelles de différentes personnes portant les mêmes vêtements pour mieux préserver la texture du vêtement et les détails fins. Ce mécanisme est analogue à la manière dont les humains considèrent les modèles de référence lorsqu'ils choisissent des tenues, simulant ainsi un effet d'habillage plus réaliste et de meilleure qualité. Nous enrichissons les données d'apprentissage avec des références supplémentaires et des images de personnes non appariées pour soutenir ces capacités. Nous évaluons EVTAR sur deux benchmarks largement utilisés et diverses tâches, et les résultats valident systématiquement l'efficacité de notre approche.
English
We propose EVTAR, an End-to-End Virtual Try-on model with Additional
Reference, that directly fits the target garment onto the person image while
incorporating reference images to enhance try-on accuracy. Most existing
virtual try-on approaches rely on complex inputs such as agnostic person
images, human pose, densepose, or body keypoints, making them labor-intensive
and impractical for real-world applications. In contrast, EVTAR adopts a
two-stage training strategy, enabling simple inference with only the source
image and the target garment inputs. Our model generates try-on results without
masks, densepose, or segmentation maps. Moreover, EVTAR leverages additional
reference images of different individuals wearing the same clothes to preserve
garment texture and fine-grained details better. This mechanism is analogous to
how humans consider reference models when choosing outfits, thereby simulating
a more realistic and high-quality dressing effect. We enrich the training data
with supplementary references and unpaired person images to support these
capabilities. We evaluate EVTAR on two widely used benchmarks and diverse
tasks, and the results consistently validate the effectiveness of our approach.