TryOffDiff: Virtuelles Anprobieren über hochauflösende Kleidungsrekonstruktion unter Verwendung von Diffusionsmodellen
TryOffDiff: Virtual-Try-Off via High-Fidelity Garment Reconstruction using Diffusion Models
November 27, 2024
Autoren: Riza Velioglu, Petra Bevandic, Robin Chan, Barbara Hammer
cs.AI
Zusammenfassung
Dieses Paper stellt Virtual Try-Off (VTOFF) vor, eine neuartige Aufgabe, die sich auf die Erzeugung standardisierter Kleidungsstückbilder aus einzelnen Fotos bekleideter Personen konzentriert. Im Gegensatz zum traditionellen Virtual Try-On (VTON), bei dem Modelle digital bekleidet werden, zielt VTOFF darauf ab, ein kanonisches Kleidungsstückbild zu extrahieren, was einzigartige Herausforderungen bei der Erfassung von Kleidungsform, -textur und komplexen Mustern mit sich bringt. Dieses klar definierte Ziel macht VTOFF besonders effektiv zur Bewertung der Rekonstruktionsgenauigkeit in generativen Modellen. Wir präsentieren TryOffDiff, ein Modell, das Stable Diffusion mit SigLIP-basierter visueller Konditionierung anpasst, um eine hohe Genauigkeit und Detailtreue sicherzustellen. Experimente mit einem modifizierten VITON-HD Datensatz zeigen, dass unser Ansatz Basismethoden, die auf Pose-Transfer und virtuellem Anprobieren basieren, mit weniger Vor- und Nachverarbeitungsschritten übertreffen. Unsere Analyse zeigt, dass herkömmliche Bildgenerierungsmetriken die Rekonstruktionsqualität unzureichend bewerten, was uns dazu veranlasst, uns auf DISTS für eine genauere Bewertung zu verlassen. Unsere Ergebnisse heben das Potenzial von VTOFF zur Verbesserung von Produktbildern in E-Commerce-Anwendungen hervor, zur Weiterentwicklung der Bewertung generativer Modelle und zur Inspiration für zukünftige Arbeiten zur hochwertigen Rekonstruktion. Demo, Code und Modelle sind verfügbar unter: https://rizavelioglu.github.io/tryoffdiff/
English
This paper introduces Virtual Try-Off (VTOFF), a novel task focused on
generating standardized garment images from single photos of clothed
individuals. Unlike traditional Virtual Try-On (VTON), which digitally dresses
models, VTOFF aims to extract a canonical garment image, posing unique
challenges in capturing garment shape, texture, and intricate patterns. This
well-defined target makes VTOFF particularly effective for evaluating
reconstruction fidelity in generative models. We present TryOffDiff, a model
that adapts Stable Diffusion with SigLIP-based visual conditioning to ensure
high fidelity and detail retention. Experiments on a modified VITON-HD dataset
show that our approach outperforms baseline methods based on pose transfer and
virtual try-on with fewer pre- and post-processing steps. Our analysis reveals
that traditional image generation metrics inadequately assess reconstruction
quality, prompting us to rely on DISTS for more accurate evaluation. Our
results highlight the potential of VTOFF to enhance product imagery in
e-commerce applications, advance generative model evaluation, and inspire
future work on high-fidelity reconstruction. Demo, code, and models are
available at: https://rizavelioglu.github.io/tryoffdiff/Summary
AI-Generated Summary