OmniTry: Prueba Virtual de Cualquier Elemento sin Máscaras
OmniTry: Virtual Try-On Anything without Masks
August 19, 2025
Autores: Yutong Feng, Linlin Zhang, Hengyuan Cao, Yiming Chen, Xiaoduan Feng, Jian Cao, Yuxiong Wu, Bin Wang
cs.AI
Resumen
El Virtual Try-On (VTON) es una tarea práctica y ampliamente aplicada, para la cual la mayoría de los trabajos existentes se centran en la ropa. Este artículo presenta OmniTry, un marco unificado que extiende el VTON más allá de las prendas para abarcar cualquier objeto wearable, como joyas y accesorios, con un enfoque sin máscaras para una aplicación más práctica. Al extenderlo a diversos tipos de objetos, la curación de datos es un desafío para obtener imágenes emparejadas, es decir, la imagen del objeto y el resultado correspondiente de la prueba virtual. Para abordar este problema, proponemos un pipeline de dos etapas: en la primera etapa, aprovechamos imágenes no emparejadas a gran escala, como retratos con cualquier artículo wearable, para entrenar el modelo en la localización sin máscaras. Específicamente, reutilizamos el modelo de inpainting para dibujar automáticamente objetos en posiciones adecuadas dada una máscara vacía. En la segunda etapa, el modelo se ajusta aún más con imágenes emparejadas para transferir la consistencia de la apariencia del objeto. Observamos que el modelo después de la primera etapa muestra una rápida convergencia incluso con pocas muestras emparejadas. OmniTry se evalúa en un benchmark integral que consta de 12 clases comunes de objetos wearables, con imágenes tanto de tienda como en entornos naturales. Los resultados experimentales sugieren que OmniTry muestra un mejor rendimiento tanto en la localización de objetos como en la preservación de la identidad en comparación con los métodos existentes. El código, los pesos del modelo y el benchmark de evaluación de OmniTry estarán disponibles públicamente en https://omnitry.github.io/.
English
Virtual Try-ON (VTON) is a practical and widely-applied task, for which most
of existing works focus on clothes. This paper presents OmniTry, a unified
framework that extends VTON beyond garment to encompass any wearable objects,
e.g., jewelries and accessories, with mask-free setting for more practical
application. When extending to various types of objects, data curation is
challenging for obtaining paired images, i.e., the object image and the
corresponding try-on result. To tackle this problem, we propose a two-staged
pipeline: For the first stage, we leverage large-scale unpaired images, i.e.,
portraits with any wearable items, to train the model for mask-free
localization. Specifically, we repurpose the inpainting model to automatically
draw objects in suitable positions given an empty mask. For the second stage,
the model is further fine-tuned with paired images to transfer the consistency
of object appearance. We observed that the model after the first stage shows
quick convergence even with few paired samples. OmniTry is evaluated on a
comprehensive benchmark consisting of 12 common classes of wearable objects,
with both in-shop and in-the-wild images. Experimental results suggest that
OmniTry shows better performance on both object localization and
ID-preservation compared with existing methods. The code, model weights, and
evaluation benchmark of OmniTry will be made publicly available at
https://omnitry.github.io/.