OmniTry: 마스크 없이 무엇이든 가상으로 입어보기
OmniTry: Virtual Try-On Anything without Masks
August 19, 2025
저자: Yutong Feng, Linlin Zhang, Hengyuan Cao, Yiming Chen, Xiaoduan Feng, Jian Cao, Yuxiong Wu, Bin Wang
cs.AI
초록
가상 피팅(Virtual Try-ON, VTON)은 실용적이며 널리 적용되는 작업으로, 기존 연구 대부분은 의류에 초점을 맞추고 있습니다. 본 논문은 OmniTry를 소개하며, 이는 VTON을 의류를 넘어 보석류와 액세서리와 같은 모든 착용 가능한 물건으로 확장하고, 더 실용적인 적용을 위해 마스크 없이 설정된 통합 프레임워크입니다. 다양한 유형의 물건으로 확장할 때, 데이터 큐레이션은 물건 이미지와 해당 피팅 결과와 같은 짝을 이루는 이미지를 얻는 데 어려움이 있습니다. 이 문제를 해결하기 위해, 우리는 두 단계의 파이프라인을 제안합니다: 첫 번째 단계에서는 대규모의 짝을 이루지 않은 이미지, 즉 착용 가능한 아이템이 있는 인물 사진을 활용하여 마스크 없이 위치를 파악하는 모델을 학습시킵니다. 구체적으로, 우리는 인페인팅 모델을 재활용하여 빈 마스크가 주어졌을 때 적절한 위치에 물건을 자동으로 그립니다. 두 번째 단계에서는, 짝을 이루는 이미지로 모델을 추가로 미세 조정하여 물건 외관의 일관성을 전달합니다. 우리는 첫 번째 단계 이후의 모델이 적은 수의 짝을 이루는 샘플로도 빠르게 수렴하는 것을 관찰했습니다. OmniTry는 매장 내와 야외 이미지로 구성된 12가지 일반적인 착용 가능한 물건 클래스의 포괄적인 벤치마크에서 평가되었습니다. 실험 결과는 OmniTry가 기존 방법들에 비해 물건 위치 파악과 ID 보존 모두에서 더 나은 성능을 보인다는 것을 시사합니다. OmniTry의 코드, 모델 가중치, 그리고 평가 벤치마크는 https://omnitry.github.io/에서 공개될 예정입니다.
English
Virtual Try-ON (VTON) is a practical and widely-applied task, for which most
of existing works focus on clothes. This paper presents OmniTry, a unified
framework that extends VTON beyond garment to encompass any wearable objects,
e.g., jewelries and accessories, with mask-free setting for more practical
application. When extending to various types of objects, data curation is
challenging for obtaining paired images, i.e., the object image and the
corresponding try-on result. To tackle this problem, we propose a two-staged
pipeline: For the first stage, we leverage large-scale unpaired images, i.e.,
portraits with any wearable items, to train the model for mask-free
localization. Specifically, we repurpose the inpainting model to automatically
draw objects in suitable positions given an empty mask. For the second stage,
the model is further fine-tuned with paired images to transfer the consistency
of object appearance. We observed that the model after the first stage shows
quick convergence even with few paired samples. OmniTry is evaluated on a
comprehensive benchmark consisting of 12 common classes of wearable objects,
with both in-shop and in-the-wild images. Experimental results suggest that
OmniTry shows better performance on both object localization and
ID-preservation compared with existing methods. The code, model weights, and
evaluation benchmark of OmniTry will be made publicly available at
https://omnitry.github.io/.