EVTAR: Prueba de prendas de extremo a extremo con referencia visual adicional no emparejada
EVTAR: End-to-End Try on with Additional Unpaired Visual Reference
November 2, 2025
Autores: Liuzhuozheng Li, Yue Gong, Shanyuan Liu, Bo Cheng, Yuhang Ma, Liebucha Wu, Dengyang Jiang, Zanyi Wang, Dawei Leng, Yuhui Yin
cs.AI
Resumen
Proponemos EVTAR, un modelo de Prueba Virtual de Fin a Fin con Referencia Adicional, que ajusta directamente la prenda objetivo sobre la imagen de la persona mientras incorpora imágenes de referencia para mejorar la precisión de la prueba. La mayoría de los enfoques existentes de prueba virtual dependen de entradas complejas, como imágenes de personas agnósticas, postura humana, *densepose* o puntos clave corporales, lo que los hace laboriosos e impracticables para aplicaciones del mundo real. En contraste, EVTAR adopta una estrategia de entrenamiento en dos etapas, permitiendo una inferencia simple con solo la imagen fuente y la prenda objetivo como entradas. Nuestro modelo genera resultados de prueba sin necesidad de máscaras, *densepose* o mapas de segmentación. Además, EVTAR aprovecha imágenes de referencia adicionales de diferentes personas usando la misma ropa para preservar mejor la textura de la prenda y los detalles finos. Este mecanismo es análogo a cómo los humanos consideran modelos de referencia al elegir outfits, simulando así un efecto de vestimenta más realista y de mayor calidad. Enriquecimos los datos de entrenamiento con referencias suplementarias e imágenes de personas no emparejadas para respaldar estas capacidades. Evaluamos EVTAR en dos *benchmarks* ampliamente utilizados y diversas tareas, y los resultados validan consistentemente la efectividad de nuestro enfoque.
English
We propose EVTAR, an End-to-End Virtual Try-on model with Additional
Reference, that directly fits the target garment onto the person image while
incorporating reference images to enhance try-on accuracy. Most existing
virtual try-on approaches rely on complex inputs such as agnostic person
images, human pose, densepose, or body keypoints, making them labor-intensive
and impractical for real-world applications. In contrast, EVTAR adopts a
two-stage training strategy, enabling simple inference with only the source
image and the target garment inputs. Our model generates try-on results without
masks, densepose, or segmentation maps. Moreover, EVTAR leverages additional
reference images of different individuals wearing the same clothes to preserve
garment texture and fine-grained details better. This mechanism is analogous to
how humans consider reference models when choosing outfits, thereby simulating
a more realistic and high-quality dressing effect. We enrich the training data
with supplementary references and unpaired person images to support these
capabilities. We evaluate EVTAR on two widely used benchmarks and diverse
tasks, and the results consistently validate the effectiveness of our approach.