TryOffDiff: Prova Virtual de Vestuário através da Reconstrução de Alta Fidelidade usando Modelos de Difusão
TryOffDiff: Virtual-Try-Off via High-Fidelity Garment Reconstruction using Diffusion Models
November 27, 2024
Autores: Riza Velioglu, Petra Bevandic, Robin Chan, Barbara Hammer
cs.AI
Resumo
Este artigo apresenta o Virtual Try-Off (VTOFF), uma tarefa inovadora focada na geração de imagens padronizadas de vestuário a partir de fotos únicas de indivíduos vestidos. Ao contrário do tradicional Virtual Try-On (VTON), que veste digitalmente modelos, o VTOFF tem como objetivo extrair uma imagem canônica do vestuário, apresentando desafios únicos na captura da forma, textura e padrões intricados do vestuário. Esse alvo bem definido torna o VTOFF particularmente eficaz para avaliar a fidelidade de reconstrução em modelos generativos. Apresentamos o TryOffDiff, um modelo que adapta a Difusão Estável com condicionamento visual baseado em SigLIP para garantir alta fidelidade e retenção de detalhes. Experimentos em um conjunto de dados modificado VITON-HD mostram que nossa abordagem supera métodos de referência baseados em transferência de pose e prova de roupas virtuais com menos etapas de pré e pós-processamento. Nossa análise revela que métricas tradicionais de geração de imagens avaliam inadequadamente a qualidade da reconstrução, o que nos leva a confiar no DISTS para uma avaliação mais precisa. Nossos resultados destacam o potencial do VTOFF para aprimorar imagens de produtos em aplicações de e-commerce, avançar na avaliação de modelos generativos e inspirar trabalhos futuros em reconstrução de alta fidelidade. Demonstração, código e modelos estão disponíveis em: https://rizavelioglu.github.io/tryoffdiff/
English
This paper introduces Virtual Try-Off (VTOFF), a novel task focused on
generating standardized garment images from single photos of clothed
individuals. Unlike traditional Virtual Try-On (VTON), which digitally dresses
models, VTOFF aims to extract a canonical garment image, posing unique
challenges in capturing garment shape, texture, and intricate patterns. This
well-defined target makes VTOFF particularly effective for evaluating
reconstruction fidelity in generative models. We present TryOffDiff, a model
that adapts Stable Diffusion with SigLIP-based visual conditioning to ensure
high fidelity and detail retention. Experiments on a modified VITON-HD dataset
show that our approach outperforms baseline methods based on pose transfer and
virtual try-on with fewer pre- and post-processing steps. Our analysis reveals
that traditional image generation metrics inadequately assess reconstruction
quality, prompting us to rely on DISTS for more accurate evaluation. Our
results highlight the potential of VTOFF to enhance product imagery in
e-commerce applications, advance generative model evaluation, and inspire
future work on high-fidelity reconstruction. Demo, code, and models are
available at: https://rizavelioglu.github.io/tryoffdiff/Summary
AI-Generated Summary