Generazione Inversa di Prova Virtuale: Creazione di Immagini di Stile-Prodotto Multi-Categoria a Partire da Individui Vestiti
Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals
May 27, 2025
Autori: Davide Lobba, Fulvio Sanguigni, Bin Ren, Marcella Cornia, Rita Cucchiara, Nicu Sebe
cs.AI
Abstract
Mentre i sistemi di virtual try-on (VTON) mirano a renderizzare un capo d'abbigliamento su un'immagine di una persona target, questo articolo affronta il nuovo compito del virtual try-off (VTOFF), che si occupa del problema inverso: generare immagini standardizzate di prodotti di abbigliamento a partire da foto reali di individui vestiti. A differenza del VTON, che deve gestire variazioni di pose e stili diverse, il VTOFF beneficia di un formato di output coerente e ben definito -- tipicamente una rappresentazione piatta e distesa del capo -- rendendolo uno strumento promettente per la generazione di dati e il miglioramento dei dataset. Tuttavia, gli approcci esistenti al VTOFF presentano due principali limitazioni: (i) difficoltà nel separare le caratteristiche del capo dalle occlusioni e dalle pose complesse, spesso portando ad artefatti visivi, e (ii) applicabilità limitata a capi di una singola categoria (ad esempio, solo abiti per la parte superiore del corpo), riducendo la generalizzazione. Per affrontare queste sfide, presentiamo Text-Enhanced MUlti-category Virtual Try-Off (TEMU-VTOFF), una nuova architettura che include un backbone duale basato su DiT con un meccanismo di attenzione multimodale modificato per un'estrazione robusta delle caratteristiche del capo. La nostra architettura è progettata per ricevere informazioni sul capo da più modalità come immagini, testo e maschere, operando in un contesto multi-categoria. Infine, proponiamo un modulo aggiuntivo di allineamento per affinare ulteriormente i dettagli visivi generati. Gli esperimenti condotti sui dataset VITON-HD e Dress Code dimostrano che TEMU-VTOFF stabilisce un nuovo stato dell'arte nel compito VTOFF, migliorando significativamente sia la qualità visiva che la fedeltà ai capi target.
English
While virtual try-on (VTON) systems aim to render a garment onto a target
person image, this paper tackles the novel task of virtual try-off (VTOFF),
which addresses the inverse problem: generating standardized product images of
garments from real-world photos of clothed individuals. Unlike VTON, which must
resolve diverse pose and style variations, VTOFF benefits from a consistent and
well-defined output format -- typically a flat, lay-down-style representation
of the garment -- making it a promising tool for data generation and dataset
enhancement. However, existing VTOFF approaches face two major limitations: (i)
difficulty in disentangling garment features from occlusions and complex poses,
often leading to visual artifacts, and (ii) restricted applicability to
single-category garments (e.g., upper-body clothes only), limiting
generalization. To address these challenges, we present Text-Enhanced
MUlti-category Virtual Try-Off (TEMU-VTOFF), a novel architecture featuring a
dual DiT-based backbone with a modified multimodal attention mechanism for
robust garment feature extraction. Our architecture is designed to receive
garment information from multiple modalities like images, text, and masks to
work in a multi-category setting. Finally, we propose an additional alignment
module to further refine the generated visual details. Experiments on VITON-HD
and Dress Code datasets show that TEMU-VTOFF sets a new state-of-the-art on the
VTOFF task, significantly improving both visual quality and fidelity to the
target garments.