EVTAR: Prova Virtuale End-to-End con Riferimento Visivo Addizionale Non Accoppiato
EVTAR: End-to-End Try on with Additional Unpaired Visual Reference
November 2, 2025
Autori: Liuzhuozheng Li, Yue Gong, Shanyuan Liu, Bo Cheng, Yuhang Ma, Liebucha Wu, Dengyang Jiang, Zanyi Wang, Dawei Leng, Yuhui Yin
cs.AI
Abstract
Proponiamo EVTAR, un modello di Virtual Try-on End-to-End con Riferimento Aggiuntivo, che adatta direttamente il capo di abbigliamento target sull'immagine della persona incorporando immagini di riferimento per migliorare l'accuratezza del provino virtuale. La maggior parte degli approcci esistenti si basa su input complessi come immagini agnostiche della persona, pose umane, densepose o punti chiave del corpo, rendendoli laboriosi e impraticabili per applicazioni nel mondo reale. Al contrario, EVTAR adotta una strategia di addestramento a due stadi, che consente un'inferenza semplice con i soli input dell'immagine sorgente e del capo target. Il nostro modello genera risultati di try-on senza maschere, densepose o mappe di segmentazione. Inoltre, EVTAR sfrutta immagini di riferimento aggiuntive di individui diversi che indossano gli stessi vestiti per preservare meglio la texture del capo e i dettagli fini. Questo meccanismo è analogo al modo in cui gli esseri umani considerano i modelli di riferimento quando scelgono gli outfit, simulando così un effetto di vestizione più realistico e di alta qualità. Arricchiamo i dati di addestramento con riferimenti supplementari e immagini di persone non abbinate per supportare queste capacità. Valutiamo EVTAR su due benchmark ampiamente utilizzati e su diverse attività, e i risultati convalidano costantemente l'efficacia del nostro approccio.
English
We propose EVTAR, an End-to-End Virtual Try-on model with Additional
Reference, that directly fits the target garment onto the person image while
incorporating reference images to enhance try-on accuracy. Most existing
virtual try-on approaches rely on complex inputs such as agnostic person
images, human pose, densepose, or body keypoints, making them labor-intensive
and impractical for real-world applications. In contrast, EVTAR adopts a
two-stage training strategy, enabling simple inference with only the source
image and the target garment inputs. Our model generates try-on results without
masks, densepose, or segmentation maps. Moreover, EVTAR leverages additional
reference images of different individuals wearing the same clothes to preserve
garment texture and fine-grained details better. This mechanism is analogous to
how humans consider reference models when choosing outfits, thereby simulating
a more realistic and high-quality dressing effect. We enrich the training data
with supplementary references and unpaired person images to support these
capabilities. We evaluate EVTAR on two widely used benchmarks and diverse
tasks, and the results consistently validate the effectiveness of our approach.