EVTAR: End-to-End Anprobe mit zusätzlicher ungepaarter visueller Referenz
EVTAR: End-to-End Try on with Additional Unpaired Visual Reference
November 2, 2025
papers.authors: Liuzhuozheng Li, Yue Gong, Shanyuan Liu, Bo Cheng, Yuhang Ma, Liebucha Wu, Dengyang Jiang, Zanyi Wang, Dawei Leng, Yuhui Yin
cs.AI
papers.abstract
Wir schlagen EVTAR vor, ein End-to-End-Virtual-Try-on-Modell mit zusätzlichen Referenzen, das das Zielkleidungsstück direkt an das Personenbild anpasst und dabei Referenzbilder einbezieht, um die Anprobe-Genauigkeit zu verbessern. Die meisten bestehenden Virtual-Try-on-Ansätze verlassen sich auf komplexe Eingaben wie agnostische Personenbilder, menschliche Posen, DensePose oder Körper-Keypoints, was sie arbeitsintensiv und für reale Anwendungen unpraktisch macht. Im Gegensatz dazu verfolgt EVTAR eine Zwei-Phasen-Trainingsstrategie, die einen einfachen Inferenzvorgang mit nur dem Quellbild und den Zielkleidungsstück-Eingaben ermöglicht. Unser Modell erzeugt Anprobe-Ergebnisse ohne Masken, DensePose oder Segmentierungskarten. Darüber hinaus nutzt EVTAR zusätzliche Referenzbilder verschiedener Personen, die dieselben Kleidungsstücke tragen, um die Textur des Kleidungsstücks und fein granulierte Details besser zu erhalten. Dieser Mechanismus ist analog dazu, wie Menschen Referenzmodelle bei der Kleiderauswahl berücksichtigen, wodurch ein realistischeres und hochwertigeres Bekleidungsergebnis simuliert wird. Wir reichern die Trainingsdaten mit ergänzenden Referenzen und ungepaarten Personenbildern an, um diese Fähigkeiten zu unterstützen. Wir evaluieren EVTAR anhand zweier weit verbreiteter Benchmarks und verschiedener Aufgaben, und die Ergebnisse validieren durchgängig die Effektivität unseres Ansatzes.
English
We propose EVTAR, an End-to-End Virtual Try-on model with Additional
Reference, that directly fits the target garment onto the person image while
incorporating reference images to enhance try-on accuracy. Most existing
virtual try-on approaches rely on complex inputs such as agnostic person
images, human pose, densepose, or body keypoints, making them labor-intensive
and impractical for real-world applications. In contrast, EVTAR adopts a
two-stage training strategy, enabling simple inference with only the source
image and the target garment inputs. Our model generates try-on results without
masks, densepose, or segmentation maps. Moreover, EVTAR leverages additional
reference images of different individuals wearing the same clothes to preserve
garment texture and fine-grained details better. This mechanism is analogous to
how humans consider reference models when choosing outfits, thereby simulating
a more realistic and high-quality dressing effect. We enrich the training data
with supplementary references and unpaired person images to support these
capabilities. We evaluate EVTAR on two widely used benchmarks and diverse
tasks, and the results consistently validate the effectiveness of our approach.