TryOffDiff : Essayage virtuel via la reconstruction de vêtements haute fidélité en utilisant des modèles de diffusion
TryOffDiff: Virtual-Try-Off via High-Fidelity Garment Reconstruction using Diffusion Models
November 27, 2024
Auteurs: Riza Velioglu, Petra Bevandic, Robin Chan, Barbara Hammer
cs.AI
Résumé
Cet article présente Virtual Try-Off (VTOFF), une tâche novatrice axée sur la génération d'images de vêtements standardisées à partir de photos uniques d'individus habillés. Contrairement au traditionnel Virtual Try-On (VTON), qui habille numériquement des modèles, VTOFF vise à extraire une image de vêtement canonique, posant des défis uniques pour capturer la forme, la texture et les motifs complexes des vêtements. Cette cible bien définie rend VTOFF particulièrement efficace pour évaluer la fidélité de la reconstruction dans les modèles génératifs. Nous présentons TryOffDiff, un modèle qui adapte la Diffusion Stable avec un conditionnement visuel basé sur SigLIP pour garantir une haute fidélité et une rétention des détails. Des expériences menées sur un ensemble de données VITON-HD modifié montrent que notre approche surpasse les méthodes de base basées sur le transfert de pose et l'essayage virtuel avec moins d'étapes de pré et post-traitement. Notre analyse révèle que les métriques traditionnelles de génération d'images évaluent de manière inadéquate la qualité de la reconstruction, ce qui nous pousse à nous appuyer sur DISTS pour une évaluation plus précise. Nos résultats mettent en lumière le potentiel de VTOFF pour améliorer les images de produits dans les applications de commerce électronique, faire progresser l'évaluation des modèles génératifs et inspirer de futurs travaux sur la reconstruction haute fidélité. Une démonstration, le code et les modèles sont disponibles sur : https://rizavelioglu.github.io/tryoffdiff/
English
This paper introduces Virtual Try-Off (VTOFF), a novel task focused on
generating standardized garment images from single photos of clothed
individuals. Unlike traditional Virtual Try-On (VTON), which digitally dresses
models, VTOFF aims to extract a canonical garment image, posing unique
challenges in capturing garment shape, texture, and intricate patterns. This
well-defined target makes VTOFF particularly effective for evaluating
reconstruction fidelity in generative models. We present TryOffDiff, a model
that adapts Stable Diffusion with SigLIP-based visual conditioning to ensure
high fidelity and detail retention. Experiments on a modified VITON-HD dataset
show that our approach outperforms baseline methods based on pose transfer and
virtual try-on with fewer pre- and post-processing steps. Our analysis reveals
that traditional image generation metrics inadequately assess reconstruction
quality, prompting us to rely on DISTS for more accurate evaluation. Our
results highlight the potential of VTOFF to enhance product imagery in
e-commerce applications, advance generative model evaluation, and inspire
future work on high-fidelity reconstruction. Demo, code, and models are
available at: https://rizavelioglu.github.io/tryoffdiff/Summary
AI-Generated Summary