EVTAR: Сквозная примерка с дополнительным несопоставленным визуальным ориентиром
EVTAR: End-to-End Try on with Additional Unpaired Visual Reference
November 2, 2025
Авторы: Liuzhuozheng Li, Yue Gong, Shanyuan Liu, Bo Cheng, Yuhang Ma, Liebucha Wu, Dengyang Jiang, Zanyi Wang, Dawei Leng, Yuhui Yin
cs.AI
Аннотация
Мы представляем EVTAR — сквозную модель виртуальной примерки с дополнительными референсами, которая напрямую подгоняет целевую одежду на изображение человека, используя эталонные изображения для повышения точности примерки. Большинство существующих подходов к виртуальной примерке опираются на сложные входные данные, такие как агностические изображения человека, позы, densepose или ключевые точки тела, что делает их трудоемкими и непрактичными для реальных применений. В отличие от них, EVTAR использует двухэтапную стратегию обучения, позволяющую проводить простой вывод только на основе исходного изображения и изображения целевой одежды. Наша модель генерирует результаты примерки без масок, densepose или карт сегментации. Более того, EVTAR использует дополнительные эталонные изображения разных людей в одной и той же одежде, чтобы лучше сохранять текстуру и мелкие детали garments. Этот механизм аналогичен тому, как люди учитывают референсные модели при выборе нарядов, что позволяет имитировать более реалистичный и качественный эффект одевания. Мы обогащаем обучающие данные дополнительными референсами и несопоставленными изображениями людей для поддержки этих возможностей. Мы оцениваем EVTAR на двух широко используемых бенчмарках и разнообразных задачах, и результаты последовательно подтверждают эффективность нашего подхода.
English
We propose EVTAR, an End-to-End Virtual Try-on model with Additional
Reference, that directly fits the target garment onto the person image while
incorporating reference images to enhance try-on accuracy. Most existing
virtual try-on approaches rely on complex inputs such as agnostic person
images, human pose, densepose, or body keypoints, making them labor-intensive
and impractical for real-world applications. In contrast, EVTAR adopts a
two-stage training strategy, enabling simple inference with only the source
image and the target garment inputs. Our model generates try-on results without
masks, densepose, or segmentation maps. Moreover, EVTAR leverages additional
reference images of different individuals wearing the same clothes to preserve
garment texture and fine-grained details better. This mechanism is analogous to
how humans consider reference models when choosing outfits, thereby simulating
a more realistic and high-quality dressing effect. We enrich the training data
with supplementary references and unpaired person images to support these
capabilities. We evaluate EVTAR on two widely used benchmarks and diverse
tasks, and the results consistently validate the effectiveness of our approach.