TryOffDiff: Virtuele pasvorm via hoogwaardige kledingreconstructie met behulp van diffusiemodellen

Samenvatting

Dit artikel introduceert Virtual Try-Off (VTOFF), een nieuw taakgericht op het genereren van gestandaardiseerde kledingafbeeldingen van enkele foto's van geklede individuen. In tegenstelling tot de traditionele Virtual Try-On (VTON), die modellen digitaal kleedt, heeft VTOFF als doel een canonieke kledingafbeelding te extraheren, wat unieke uitdagingen met zich meebrengt bij het vastleggen van kledingvorm, textuur en ingewikkelde patronen. Dit goed gedefinieerde doel maakt VTOFF bijzonder effectief voor het evalueren van reconstructiefideliteit in generatieve modellen. We presenteren TryOffDiff, een model dat Stable Diffusion aanpast met op SigLIP gebaseerde visuele conditionering om een hoge getrouwheid en detailbehoud te waarborgen. Experimenten op een aangepaste VITON-HD dataset tonen aan dat onze aanpak beter presteert dan basismethoden gebaseerd op pose-overdracht en virtueel passen met minder voor- en nabewerkingsstappen. Onze analyse onthult dat traditionele beeldgeneratiemetrics de reconstructiekwaliteit ontoereikend beoordelen, wat ons aanzet om te vertrouwen op DISTS voor een nauwkeurigere evaluatie. Onze resultaten benadrukken het potentieel van VTOFF om productafbeeldingen in e-commerce toepassingen te verbeteren, generatieve model evaluatie te bevorderen en toekomstig werk over hoogwaardige reconstructie te inspireren. Demo, code en modellen zijn beschikbaar op: https://rizavelioglu.github.io/tryoffdiff/

English

This paper introduces Virtual Try-Off (VTOFF), a novel task focused on generating standardized garment images from single photos of clothed individuals. Unlike traditional Virtual Try-On (VTON), which digitally dresses models, VTOFF aims to extract a canonical garment image, posing unique challenges in capturing garment shape, texture, and intricate patterns. This well-defined target makes VTOFF particularly effective for evaluating reconstruction fidelity in generative models. We present TryOffDiff, a model that adapts Stable Diffusion with SigLIP-based visual conditioning to ensure high fidelity and detail retention. Experiments on a modified VITON-HD dataset show that our approach outperforms baseline methods based on pose transfer and virtual try-on with fewer pre- and post-processing steps. Our analysis reveals that traditional image generation metrics inadequately assess reconstruction quality, prompting us to rely on DISTS for more accurate evaluation. Our results highlight the potential of VTOFF to enhance product imagery in e-commerce applications, advance generative model evaluation, and inspire future work on high-fidelity reconstruction. Demo, code, and models are available at: https://rizavelioglu.github.io/tryoffdiff/

TryOffDiff: Virtuele pasvorm via hoogwaardige kledingreconstructie met behulp van diffusiemodellen

TryOffDiff: Virtual-Try-Off via High-Fidelity Garment Reconstruction using Diffusion Models

Samenvatting

Support