TryOffDiff: Virtuele pasvorm via hoogwaardige kledingreconstructie met behulp van diffusiemodellen
TryOffDiff: Virtual-Try-Off via High-Fidelity Garment Reconstruction using Diffusion Models
November 27, 2024
Auteurs: Riza Velioglu, Petra Bevandic, Robin Chan, Barbara Hammer
cs.AI
Samenvatting
Dit artikel introduceert Virtual Try-Off (VTOFF), een nieuw taakgericht op het genereren van gestandaardiseerde kledingafbeeldingen van enkele foto's van geklede individuen. In tegenstelling tot de traditionele Virtual Try-On (VTON), die modellen digitaal kleedt, heeft VTOFF als doel een canonieke kledingafbeelding te extraheren, wat unieke uitdagingen met zich meebrengt bij het vastleggen van kledingvorm, textuur en ingewikkelde patronen. Dit goed gedefinieerde doel maakt VTOFF bijzonder effectief voor het evalueren van reconstructiefideliteit in generatieve modellen. We presenteren TryOffDiff, een model dat Stable Diffusion aanpast met op SigLIP gebaseerde visuele conditionering om een hoge getrouwheid en detailbehoud te waarborgen. Experimenten op een aangepaste VITON-HD dataset tonen aan dat onze aanpak beter presteert dan basismethoden gebaseerd op pose-overdracht en virtueel passen met minder voor- en nabewerkingsstappen. Onze analyse onthult dat traditionele beeldgeneratiemetrics de reconstructiekwaliteit ontoereikend beoordelen, wat ons aanzet om te vertrouwen op DISTS voor een nauwkeurigere evaluatie. Onze resultaten benadrukken het potentieel van VTOFF om productafbeeldingen in e-commerce toepassingen te verbeteren, generatieve model evaluatie te bevorderen en toekomstig werk over hoogwaardige reconstructie te inspireren. Demo, code en modellen zijn beschikbaar op: https://rizavelioglu.github.io/tryoffdiff/
English
This paper introduces Virtual Try-Off (VTOFF), a novel task focused on
generating standardized garment images from single photos of clothed
individuals. Unlike traditional Virtual Try-On (VTON), which digitally dresses
models, VTOFF aims to extract a canonical garment image, posing unique
challenges in capturing garment shape, texture, and intricate patterns. This
well-defined target makes VTOFF particularly effective for evaluating
reconstruction fidelity in generative models. We present TryOffDiff, a model
that adapts Stable Diffusion with SigLIP-based visual conditioning to ensure
high fidelity and detail retention. Experiments on a modified VITON-HD dataset
show that our approach outperforms baseline methods based on pose transfer and
virtual try-on with fewer pre- and post-processing steps. Our analysis reveals
that traditional image generation metrics inadequately assess reconstruction
quality, prompting us to rely on DISTS for more accurate evaluation. Our
results highlight the potential of VTOFF to enhance product imagery in
e-commerce applications, advance generative model evaluation, and inspire
future work on high-fidelity reconstruction. Demo, code, and models are
available at: https://rizavelioglu.github.io/tryoffdiff/