ChatPaper.aiChatPaper

OmniTry: Prova Virtuale di Qualsiasi Cosa Senza Maschere

OmniTry: Virtual Try-On Anything without Masks

August 19, 2025
Autori: Yutong Feng, Linlin Zhang, Hengyuan Cao, Yiming Chen, Xiaoduan Feng, Jian Cao, Yuxiong Wu, Bin Wang
cs.AI

Abstract

Il Virtual Try-On (VTON) è un compito pratico e ampiamente applicato, per il quale la maggior parte dei lavori esistenti si concentra sugli abiti. Questo articolo presenta OmniTry, un framework unificato che estende il VTON oltre i capi di abbigliamento per includere qualsiasi oggetto indossabile, ad esempio gioielli e accessori, con un'impostazione senza maschera per un'applicazione più pratica. Quando si estende a vari tipi di oggetti, la cura dei dati è impegnativa per ottenere immagini accoppiate, ovvero l'immagine dell'oggetto e il risultato corrispondente del try-on. Per affrontare questo problema, proponiamo una pipeline in due fasi: nella prima fase, sfruttiamo immagini non accoppiate su larga scala, ovvero ritratti con qualsiasi oggetto indossabile, per addestrare il modello per la localizzazione senza maschera. Nello specifico, riutilizziamo il modello di inpainting per disegnare automaticamente gli oggetti in posizioni adeguate data una maschera vuota. Nella seconda fase, il modello viene ulteriormente perfezionato con immagini accoppiate per trasferire la coerenza dell'aspetto dell'oggetto. Abbiamo osservato che il modello dopo la prima fase mostra una rapida convergenza anche con pochi campioni accoppiati. OmniTry è valutato su un benchmark completo costituito da 12 classi comuni di oggetti indossabili, con immagini sia in negozio che in contesti reali. I risultati sperimentali suggeriscono che OmniTry mostra prestazioni migliori sia nella localizzazione degli oggetti che nella conservazione dell'ID rispetto ai metodi esistenti. Il codice, i pesi del modello e il benchmark di valutazione di OmniTry saranno resi pubblicamente disponibili su https://omnitry.github.io/.
English
Virtual Try-ON (VTON) is a practical and widely-applied task, for which most of existing works focus on clothes. This paper presents OmniTry, a unified framework that extends VTON beyond garment to encompass any wearable objects, e.g., jewelries and accessories, with mask-free setting for more practical application. When extending to various types of objects, data curation is challenging for obtaining paired images, i.e., the object image and the corresponding try-on result. To tackle this problem, we propose a two-staged pipeline: For the first stage, we leverage large-scale unpaired images, i.e., portraits with any wearable items, to train the model for mask-free localization. Specifically, we repurpose the inpainting model to automatically draw objects in suitable positions given an empty mask. For the second stage, the model is further fine-tuned with paired images to transfer the consistency of object appearance. We observed that the model after the first stage shows quick convergence even with few paired samples. OmniTry is evaluated on a comprehensive benchmark consisting of 12 common classes of wearable objects, with both in-shop and in-the-wild images. Experimental results suggest that OmniTry shows better performance on both object localization and ID-preservation compared with existing methods. The code, model weights, and evaluation benchmark of OmniTry will be made publicly available at https://omnitry.github.io/.
PDF162August 20, 2025