OmniTry: Experimentação Virtual de Qualquer Item sem Máscaras
OmniTry: Virtual Try-On Anything without Masks
August 19, 2025
Autores: Yutong Feng, Linlin Zhang, Hengyuan Cao, Yiming Chen, Xiaoduan Feng, Jian Cao, Yuxiong Wu, Bin Wang
cs.AI
Resumo
O Virtual Try-On (VTON) é uma tarefa prática e amplamente aplicada, para a qual a maioria dos trabalhos existentes se concentra em roupas. Este artigo apresenta o OmniTry, uma estrutura unificada que estende o VTON além de vestuário para abranger qualquer objeto vestível, como joias e acessórios, com uma configuração sem máscara para uma aplicação mais prática. Ao estender para vários tipos de objetos, a curadoria de dados é desafiadora para obter imagens emparelhadas, ou seja, a imagem do objeto e o resultado correspondente de experimentação. Para resolver esse problema, propomos um pipeline em duas etapas: Na primeira etapa, aproveitamos imagens não emparelhadas em grande escala, ou seja, retratos com qualquer item vestível, para treinar o modelo para localização sem máscara. Especificamente, reutilizamos o modelo de inpainting para desenhar automaticamente objetos em posições adequadas, dada uma máscara vazia. Na segunda etapa, o modelo é ajustado com imagens emparelhadas para transferir a consistência da aparência do objeto. Observamos que o modelo após a primeira etapa mostra convergência rápida mesmo com poucas amostras emparelhadas. O OmniTry é avaliado em um benchmark abrangente composto por 12 classes comuns de objetos vestíveis, com imagens tanto de loja quanto em ambiente natural. Os resultados experimentais sugerem que o OmniTry apresenta melhor desempenho tanto na localização de objetos quanto na preservação de ID em comparação com os métodos existentes. O código, os pesos do modelo e o benchmark de avaliação do OmniTry serão disponibilizados publicamente em https://omnitry.github.io/.
English
Virtual Try-ON (VTON) is a practical and widely-applied task, for which most
of existing works focus on clothes. This paper presents OmniTry, a unified
framework that extends VTON beyond garment to encompass any wearable objects,
e.g., jewelries and accessories, with mask-free setting for more practical
application. When extending to various types of objects, data curation is
challenging for obtaining paired images, i.e., the object image and the
corresponding try-on result. To tackle this problem, we propose a two-staged
pipeline: For the first stage, we leverage large-scale unpaired images, i.e.,
portraits with any wearable items, to train the model for mask-free
localization. Specifically, we repurpose the inpainting model to automatically
draw objects in suitable positions given an empty mask. For the second stage,
the model is further fine-tuned with paired images to transfer the consistency
of object appearance. We observed that the model after the first stage shows
quick convergence even with few paired samples. OmniTry is evaluated on a
comprehensive benchmark consisting of 12 common classes of wearable objects,
with both in-shop and in-the-wild images. Experimental results suggest that
OmniTry shows better performance on both object localization and
ID-preservation compared with existing methods. The code, model weights, and
evaluation benchmark of OmniTry will be made publicly available at
https://omnitry.github.io/.