ChatPaper.aiChatPaper

EVTAR: End-to-End Passen met Additionele Ongepaarde Visuele Referentie

EVTAR: End-to-End Try on with Additional Unpaired Visual Reference

November 2, 2025
Auteurs: Liuzhuozheng Li, Yue Gong, Shanyuan Liu, Bo Cheng, Yuhang Ma, Liebucha Wu, Dengyang Jiang, Zanyi Wang, Dawei Leng, Yuhui Yin
cs.AI

Samenvatting

Wij stellen EVTAR voor, een End-to-End Virtual Try-on model met Additionele Referentie, dat het doelkledingstuk direct op de persoon in de afbeelding past terwijl het referentiebeelden integreert om de pasnauwkeurigheid te verbeteren. De meeste bestaande virtuele pas-aanpakken vertrouwen op complexe invoer, zoals agnostische persoonafbeeldingen, menselijke houding, densepose of lichaamskeypoints, wat ze arbeidsintensief en onpraktisch maakt voor realistische toepassingen. EVTAR daarentegen hanteert een tweefasetrainingsstrategie, waardoor eenvoudige inferentie mogelijk is met alleen de bronafbeelding en het doelkledingstuk als invoer. Ons model genereert pasresultaten zonder maskers, densepose of segmentatiekaarten. Bovendien benut EVTAR aanvullende referentiebeelden van verschillende personen die dezelfde kleding dragen om de textuur van het kledingstuk en fijngranulaire details beter te behouden. Dit mechanisme is vergelijkbaar met hoe mensen referentiemodellen overwegen bij het kiezen van outfits, waardoor een realistischer en hoogwaardiger kledingeffect wordt gesimuleerd. Wij verrijken de trainingsgegevens met aanvullende referenties en niet-gepaarde persoonafbeeldingen om deze mogelijkheden te ondersteunen. We evalueren EVTAR op twee veelgebruikte benchmarks en diverse taken, en de resultaten valideren consistent de effectiviteit van onze aanpak.
English
We propose EVTAR, an End-to-End Virtual Try-on model with Additional Reference, that directly fits the target garment onto the person image while incorporating reference images to enhance try-on accuracy. Most existing virtual try-on approaches rely on complex inputs such as agnostic person images, human pose, densepose, or body keypoints, making them labor-intensive and impractical for real-world applications. In contrast, EVTAR adopts a two-stage training strategy, enabling simple inference with only the source image and the target garment inputs. Our model generates try-on results without masks, densepose, or segmentation maps. Moreover, EVTAR leverages additional reference images of different individuals wearing the same clothes to preserve garment texture and fine-grained details better. This mechanism is analogous to how humans consider reference models when choosing outfits, thereby simulating a more realistic and high-quality dressing effect. We enrich the training data with supplementary references and unpaired person images to support these capabilities. We evaluate EVTAR on two widely used benchmarks and diverse tasks, and the results consistently validate the effectiveness of our approach.
PDF42December 2, 2025