TryOffDiff: Prueba virtual de ropa a través de la reconstrucción de prendas de alta fidelidad utilizando modelos de difusión
TryOffDiff: Virtual-Try-Off via High-Fidelity Garment Reconstruction using Diffusion Models
November 27, 2024
Autores: Riza Velioglu, Petra Bevandic, Robin Chan, Barbara Hammer
cs.AI
Resumen
Este documento presenta Virtual Try-Off (VTOFF), una tarea novedosa centrada en la generación de imágenes estandarizadas de prendas a partir de fotos individuales de personas vestidas. A diferencia del tradicional Virtual Try-On (VTON), que viste digitalmente a modelos, VTOFF tiene como objetivo extraer una imagen canónica de la prenda, lo que plantea desafíos únicos en la captura de la forma, textura y patrones intrincados de la prenda. Este objetivo bien definido hace que VTOFF sea particularmente efectivo para evaluar la fidelidad de la reconstrucción en modelos generativos. Presentamos TryOffDiff, un modelo que adapta Stable Diffusion con condicionamiento visual basado en SigLIP para garantizar una alta fidelidad y retención de detalles. Experimentos realizados en un conjunto de datos modificado de VITON-HD muestran que nuestro enfoque supera a los métodos de referencia basados en transferencia de postura y prueba de vestimenta virtual con menos pasos de pre y post-procesamiento. Nuestro análisis revela que las métricas tradicionales de generación de imágenes evalúan de manera inadecuada la calidad de la reconstrucción, lo que nos lleva a depender de DISTS para una evaluación más precisa. Nuestros resultados resaltan el potencial de VTOFF para mejorar la imagen de productos en aplicaciones de comercio electrónico, avanzar en la evaluación de modelos generativos e inspirar trabajos futuros sobre reconstrucciones de alta fidelidad. Una demostración, código y modelos están disponibles en: https://rizavelioglu.github.io/tryoffdiff/
English
This paper introduces Virtual Try-Off (VTOFF), a novel task focused on
generating standardized garment images from single photos of clothed
individuals. Unlike traditional Virtual Try-On (VTON), which digitally dresses
models, VTOFF aims to extract a canonical garment image, posing unique
challenges in capturing garment shape, texture, and intricate patterns. This
well-defined target makes VTOFF particularly effective for evaluating
reconstruction fidelity in generative models. We present TryOffDiff, a model
that adapts Stable Diffusion with SigLIP-based visual conditioning to ensure
high fidelity and detail retention. Experiments on a modified VITON-HD dataset
show that our approach outperforms baseline methods based on pose transfer and
virtual try-on with fewer pre- and post-processing steps. Our analysis reveals
that traditional image generation metrics inadequately assess reconstruction
quality, prompting us to rely on DISTS for more accurate evaluation. Our
results highlight the potential of VTOFF to enhance product imagery in
e-commerce applications, advance generative model evaluation, and inspire
future work on high-fidelity reconstruction. Demo, code, and models are
available at: https://rizavelioglu.github.io/tryoffdiff/Summary
AI-Generated Summary