ChatPaper.aiChatPaper

OmniTry: Virtueel Passen van Alles zonder Maskers

OmniTry: Virtual Try-On Anything without Masks

August 19, 2025
Auteurs: Yutong Feng, Linlin Zhang, Hengyuan Cao, Yiming Chen, Xiaoduan Feng, Jian Cao, Yuxiong Wu, Bin Wang
cs.AI

Samenvatting

Virtual Try-On (VTON) is een praktische en veelgebruikte taak, waarbij de meeste bestaande werken zich richten op kleding. Dit artikel presenteert OmniTry, een uniform raamwerk dat VTON uitbreidt voorbij kleding om elk draagbaar object te omvatten, zoals sieraden en accessoires, met een maskervrije instelling voor een meer praktische toepassing. Bij het uitbreiden naar verschillende soorten objecten is het samenstellen van gegevens uitdagend voor het verkrijgen van gepaarde afbeeldingen, d.w.z. de afbeelding van het object en het bijbehorende try-on resultaat. Om dit probleem aan te pakken, stellen we een tweestaps pijplijn voor: In de eerste fase maken we gebruik van grootschalige ongepaarde afbeeldingen, d.w.z. portretten met elk draagbaar item, om het model te trainen voor maskervrije lokalisatie. Specifiek hergebruiken we het inpainting-model om automatisch objecten op geschikte posities te tekenen gegeven een leeg masker. In de tweede fase wordt het model verder verfijnd met gepaarde afbeeldingen om de consistentie van het uiterlijk van het object over te dragen. We hebben waargenomen dat het model na de eerste fase snelle convergentie vertoont, zelfs met weinig gepaarde voorbeelden. OmniTry wordt geëvalueerd op een uitgebreide benchmark bestaande uit 12 veelvoorkomende klassen van draagbare objecten, met zowel in-shop als in-the-wild afbeeldingen. Experimentele resultaten suggereren dat OmniTry betere prestaties vertoont op zowel objectlokalisatie als ID-behoud in vergelijking met bestaande methoden. De code, modelgewichten en evaluatiebenchmark van OmniTry zullen openbaar beschikbaar worden gesteld op https://omnitry.github.io/.
English
Virtual Try-ON (VTON) is a practical and widely-applied task, for which most of existing works focus on clothes. This paper presents OmniTry, a unified framework that extends VTON beyond garment to encompass any wearable objects, e.g., jewelries and accessories, with mask-free setting for more practical application. When extending to various types of objects, data curation is challenging for obtaining paired images, i.e., the object image and the corresponding try-on result. To tackle this problem, we propose a two-staged pipeline: For the first stage, we leverage large-scale unpaired images, i.e., portraits with any wearable items, to train the model for mask-free localization. Specifically, we repurpose the inpainting model to automatically draw objects in suitable positions given an empty mask. For the second stage, the model is further fine-tuned with paired images to transfer the consistency of object appearance. We observed that the model after the first stage shows quick convergence even with few paired samples. OmniTry is evaluated on a comprehensive benchmark consisting of 12 common classes of wearable objects, with both in-shop and in-the-wild images. Experimental results suggest that OmniTry shows better performance on both object localization and ID-preservation compared with existing methods. The code, model weights, and evaluation benchmark of OmniTry will be made publicly available at https://omnitry.github.io/.
PDF162August 20, 2025