ChatPaper.aiChatPaper

OmniTry: Virtuelles Anprobieren von allem ohne Masken

OmniTry: Virtual Try-On Anything without Masks

August 19, 2025
papers.authors: Yutong Feng, Linlin Zhang, Hengyuan Cao, Yiming Chen, Xiaoduan Feng, Jian Cao, Yuxiong Wu, Bin Wang
cs.AI

papers.abstract

Virtual Try-ON (VTON) ist eine praktische und weit verbreitete Aufgabe, bei der sich die meisten bestehenden Arbeiten auf Kleidung konzentrieren. Dieses Papier stellt OmniTry vor, ein einheitliches Framework, das VTON über Kleidung hinaus erweitert, um beliebige tragbare Objekte wie Schmuck und Accessoires in einer maskenfreien Einstellung für eine praktischere Anwendung zu umfassen. Bei der Erweiterung auf verschiedene Objekttypen ist die Datenkuratierung eine Herausforderung, um gepaarte Bilder, d.h. das Objektbild und das entsprechende Try-On-Ergebnis, zu erhalten. Um dieses Problem zu lösen, schlagen wir eine zweistufige Pipeline vor: In der ersten Stufe nutzen wir groß angelegte ungepaarte Bilder, d.h. Porträts mit beliebigen tragbaren Gegenständen, um das Modell für die maskenfreie Lokalisierung zu trainieren. Insbesondere verwenden wir das Inpainting-Modell neu, um Objekte automatisch an geeigneten Positionen zu zeichnen, wenn eine leere Maske gegeben ist. In der zweiten Stufe wird das Modell weiter mit gepaarten Bildern feinabgestimmt, um die Konsistenz des Objektaussehens zu übertragen. Wir beobachteten, dass das Modell nach der ersten Stufe selbst bei wenigen gepaarten Beispielen eine schnelle Konvergenz zeigt. OmniTry wird auf einem umfassenden Benchmark bewertet, der aus 12 gängigen Klassen tragbarer Objekte besteht, sowohl mit In-Shop- als auch mit In-the-Wild-Bildern. Die experimentellen Ergebnisse deuten darauf hin, dass OmniTry sowohl bei der Objektlokalisierung als auch bei der ID-Erhaltung eine bessere Leistung im Vergleich zu bestehenden Methoden zeigt. Der Code, die Modellgewichte und der Evaluierungsbenchmark von OmniTry werden unter https://omnitry.github.io/ öffentlich zugänglich gemacht.
English
Virtual Try-ON (VTON) is a practical and widely-applied task, for which most of existing works focus on clothes. This paper presents OmniTry, a unified framework that extends VTON beyond garment to encompass any wearable objects, e.g., jewelries and accessories, with mask-free setting for more practical application. When extending to various types of objects, data curation is challenging for obtaining paired images, i.e., the object image and the corresponding try-on result. To tackle this problem, we propose a two-staged pipeline: For the first stage, we leverage large-scale unpaired images, i.e., portraits with any wearable items, to train the model for mask-free localization. Specifically, we repurpose the inpainting model to automatically draw objects in suitable positions given an empty mask. For the second stage, the model is further fine-tuned with paired images to transfer the consistency of object appearance. We observed that the model after the first stage shows quick convergence even with few paired samples. OmniTry is evaluated on a comprehensive benchmark consisting of 12 common classes of wearable objects, with both in-shop and in-the-wild images. Experimental results suggest that OmniTry shows better performance on both object localization and ID-preservation compared with existing methods. The code, model weights, and evaluation benchmark of OmniTry will be made publicly available at https://omnitry.github.io/.
PDF81August 20, 2025