ChatPaper.aiChatPaper

EVTAR: End-to-End Anprobe mit zusätzlicher ungepaarter visueller Referenz

EVTAR: End-to-End Try on with Additional Unpaired Visual Reference

November 2, 2025
papers.authors: Liuzhuozheng Li, Yue Gong, Shanyuan Liu, Bo Cheng, Yuhang Ma, Liebucha Wu, Dengyang Jiang, Zanyi Wang, Dawei Leng, Yuhui Yin
cs.AI

papers.abstract

Wir schlagen EVTAR vor, ein End-to-End-Virtual-Try-on-Modell mit zusätzlichen Referenzen, das das Zielkleidungsstück direkt an das Personenbild anpasst und dabei Referenzbilder einbezieht, um die Anprobe-Genauigkeit zu verbessern. Die meisten bestehenden Virtual-Try-on-Ansätze verlassen sich auf komplexe Eingaben wie agnostische Personenbilder, menschliche Posen, DensePose oder Körper-Keypoints, was sie arbeitsintensiv und für reale Anwendungen unpraktisch macht. Im Gegensatz dazu verfolgt EVTAR eine Zwei-Phasen-Trainingsstrategie, die einen einfachen Inferenzvorgang mit nur dem Quellbild und den Zielkleidungsstück-Eingaben ermöglicht. Unser Modell erzeugt Anprobe-Ergebnisse ohne Masken, DensePose oder Segmentierungskarten. Darüber hinaus nutzt EVTAR zusätzliche Referenzbilder verschiedener Personen, die dieselben Kleidungsstücke tragen, um die Textur des Kleidungsstücks und fein granulierte Details besser zu erhalten. Dieser Mechanismus ist analog dazu, wie Menschen Referenzmodelle bei der Kleiderauswahl berücksichtigen, wodurch ein realistischeres und hochwertigeres Bekleidungsergebnis simuliert wird. Wir reichern die Trainingsdaten mit ergänzenden Referenzen und ungepaarten Personenbildern an, um diese Fähigkeiten zu unterstützen. Wir evaluieren EVTAR anhand zweier weit verbreiteter Benchmarks und verschiedener Aufgaben, und die Ergebnisse validieren durchgängig die Effektivität unseres Ansatzes.
English
We propose EVTAR, an End-to-End Virtual Try-on model with Additional Reference, that directly fits the target garment onto the person image while incorporating reference images to enhance try-on accuracy. Most existing virtual try-on approaches rely on complex inputs such as agnostic person images, human pose, densepose, or body keypoints, making them labor-intensive and impractical for real-world applications. In contrast, EVTAR adopts a two-stage training strategy, enabling simple inference with only the source image and the target garment inputs. Our model generates try-on results without masks, densepose, or segmentation maps. Moreover, EVTAR leverages additional reference images of different individuals wearing the same clothes to preserve garment texture and fine-grained details better. This mechanism is analogous to how humans consider reference models when choosing outfits, thereby simulating a more realistic and high-quality dressing effect. We enrich the training data with supplementary references and unpaired person images to support these capabilities. We evaluate EVTAR on two widely used benchmarks and diverse tasks, and the results consistently validate the effectiveness of our approach.
PDF42December 2, 2025