EVTAR: 추가 비페어 시각 참조를 활용한 엔드투엔드 착용 체험
EVTAR: End-to-End Try on with Additional Unpaired Visual Reference
November 2, 2025
저자: Liuzhuozheng Li, Yue Gong, Shanyuan Liu, Bo Cheng, Yuhang Ma, Liebucha Wu, Dengyang Jiang, Zanyi Wang, Dawei Leng, Yuhui Yin
cs.AI
초록
본 논문에서는 참조 이미지를 활용하여 착용 정확도를 높이면서도 대상 의상을 사람 이미지에 직접 맞추는 End-to-End 방식의 가상 피팅 모델인 EVTAR(End-to-End Virtual Try-on with Additional Reference)을 제안한다. 기존 대부분의 가상 피팅 접근법은 불특정 인물 이미지, 인간 포즈, DensePose, 신체 키포인트 등 복잡한 입력에 의존하여 실제 적용 시 노동 집약적이고 비실용적이라는 한계가 있다. 이에 반해 EVTAR는 2단계 학습 전략을 채택하여 소스 이미지와 대상 의상만으로도 간단한 추론이 가능하다. 본 모델은 마스크, DensePose, 분할 맵 없이도 피팅 결과를 생성한다. 나아가 EVTAR는 동일한 의상을 입은 다른 인물의 추가 참조 이미지를 활용하여 의상 텍스처와 미세한 디테일을 더욱 효과적으로 보존한다. 이 메커니즘은 인간이 의상을 선택할 때 참조 모델을 고려하는 방식과 유사하여 보다 현실적이고 고품질의 착용 효과를 구현한다. 이러한 기능을 지원하기 위해 학습 데이터에 보조 참조 이미지와 비페어링된 인물 이미지를 추가로 확보하였다. 두 가지 널리 사용되는 벤치마크와 다양한 태스크를 통해 EVTAR를 평가한 결과, 본 접근법의 효과가 지속적으로 입증되었다.
English
We propose EVTAR, an End-to-End Virtual Try-on model with Additional
Reference, that directly fits the target garment onto the person image while
incorporating reference images to enhance try-on accuracy. Most existing
virtual try-on approaches rely on complex inputs such as agnostic person
images, human pose, densepose, or body keypoints, making them labor-intensive
and impractical for real-world applications. In contrast, EVTAR adopts a
two-stage training strategy, enabling simple inference with only the source
image and the target garment inputs. Our model generates try-on results without
masks, densepose, or segmentation maps. Moreover, EVTAR leverages additional
reference images of different individuals wearing the same clothes to preserve
garment texture and fine-grained details better. This mechanism is analogous to
how humans consider reference models when choosing outfits, thereby simulating
a more realistic and high-quality dressing effect. We enrich the training data
with supplementary references and unpaired person images to support these
capabilities. We evaluate EVTAR on two widely used benchmarks and diverse
tasks, and the results consistently validate the effectiveness of our approach.