ChatPaper.aiChatPaper

OmniTry : Essayage virtuel de tout sans masques

OmniTry: Virtual Try-On Anything without Masks

August 19, 2025
papers.authors: Yutong Feng, Linlin Zhang, Hengyuan Cao, Yiming Chen, Xiaoduan Feng, Jian Cao, Yuxiong Wu, Bin Wang
cs.AI

papers.abstract

L'essayage virtuel (Virtual Try-ON, VTON) est une tâche pratique et largement appliquée, pour laquelle la plupart des travaux existants se concentrent sur les vêtements. Cet article présente OmniTry, un cadre unifié qui étend le VTON au-delà des vêtements pour inclure tout objet portable, par exemple les bijoux et accessoires, avec un paramétrage sans masque pour une application plus pratique. Lors de l'extension à divers types d'objets, la curation des données est un défi pour obtenir des images appariées, c'est-à-dire l'image de l'objet et le résultat d'essayage correspondant. Pour résoudre ce problème, nous proposons un pipeline en deux étapes : Pour la première étape, nous exploitons des images non appariées à grande échelle, c'est-à-dire des portraits avec des objets portables, pour entraîner le modèle à la localisation sans masque. Plus précisément, nous réutilisons le modèle de réparation d'image pour dessiner automatiquement les objets à des positions appropriées en fonction d'un masque vide. Pour la deuxième étape, le modèle est ensuite affiné avec des images appariées pour transférer la cohérence de l'apparence de l'objet. Nous avons observé que le modèle après la première étape montre une convergence rapide même avec peu d'échantillons appariés. OmniTry est évalué sur un benchmark complet composé de 12 classes courantes d'objets portables, avec des images en boutique et en situation réelle. Les résultats expérimentaux suggèrent qu'OmniTry montre de meilleures performances à la fois en localisation d'objets et en préservation de l'identité par rapport aux méthodes existantes. Le code, les poids du modèle et le benchmark d'évaluation d'OmniTry seront rendus publics à l'adresse https://omnitry.github.io/.
English
Virtual Try-ON (VTON) is a practical and widely-applied task, for which most of existing works focus on clothes. This paper presents OmniTry, a unified framework that extends VTON beyond garment to encompass any wearable objects, e.g., jewelries and accessories, with mask-free setting for more practical application. When extending to various types of objects, data curation is challenging for obtaining paired images, i.e., the object image and the corresponding try-on result. To tackle this problem, we propose a two-staged pipeline: For the first stage, we leverage large-scale unpaired images, i.e., portraits with any wearable items, to train the model for mask-free localization. Specifically, we repurpose the inpainting model to automatically draw objects in suitable positions given an empty mask. For the second stage, the model is further fine-tuned with paired images to transfer the consistency of object appearance. We observed that the model after the first stage shows quick convergence even with few paired samples. OmniTry is evaluated on a comprehensive benchmark consisting of 12 common classes of wearable objects, with both in-shop and in-the-wild images. Experimental results suggest that OmniTry shows better performance on both object localization and ID-preservation compared with existing methods. The code, model weights, and evaluation benchmark of OmniTry will be made publicly available at https://omnitry.github.io/.
PDF81August 20, 2025