Inverse Virtuele Passessie: Het Genereren van Multi-Categorie Product-Stijl Afbeeldingen vanuit Geklede Personen
Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals
May 27, 2025
Auteurs: Davide Lobba, Fulvio Sanguigni, Bin Ren, Marcella Cornia, Rita Cucchiara, Nicu Sebe
cs.AI
Samenvatting
Terwijl virtuele pas-systemen (VTON) gericht zijn op het weergeven van een kledingstuk op een doelpersoonafbeelding, behandelt dit artikel de nieuwe taak van virtueel afpassen (VTOFF), waarbij het omgekeerde probleem wordt aangepakt: het genereren van gestandaardiseerde productafbeeldingen van kledingstukken uit real-world foto's van geklede individuen. In tegenstelling tot VTON, dat diverse houdingen en stijlvariaties moet oplossen, profiteert VTOFF van een consistent en goed gedefinieerd uitvoerformaat — meestal een platte, liggende weergave van het kledingstuk — wat het een veelbelovend hulpmiddel maakt voor datageneratie en datasetverbetering. Bestaande VTOFF-benaderingen kampen echter met twee belangrijke beperkingen: (i) moeilijkheden bij het ontwarren van kledingkenmerken uit occlusies en complexe houdingen, wat vaak leidt tot visuele artefacten, en (ii) beperkte toepasbaarheid op kledingstukken van één categorie (bijv. alleen bovenlichaamkleding), wat de generalisatie beperkt. Om deze uitdagingen aan te pakken, presenteren we Text-Enhanced MUlti-category Virtual Try-Off (TEMU-VTOFF), een nieuwe architectuur met een dubbele DiT-gebaseerde backbone en een aangepast multimodaal aandachtmechanisme voor robuuste extractie van kledingkenmerken. Onze architectuur is ontworpen om kledinginformatie uit meerdere modaliteiten zoals afbeeldingen, tekst en maskers te ontvangen, zodat deze in een multi-categorie-instelling kan werken. Ten slotte stellen we een extra uitlijningsmodule voor om de gegenereerde visuele details verder te verfijnen. Experimenten op de VITON-HD en Dress Code-datasets tonen aan dat TEMU-VTOFF een nieuwe state-of-the-art bereikt voor de VTOFF-taak, waarbij zowel de visuele kwaliteit als de trouw aan de doelkledingstukken aanzienlijk worden verbeterd.
English
While virtual try-on (VTON) systems aim to render a garment onto a target
person image, this paper tackles the novel task of virtual try-off (VTOFF),
which addresses the inverse problem: generating standardized product images of
garments from real-world photos of clothed individuals. Unlike VTON, which must
resolve diverse pose and style variations, VTOFF benefits from a consistent and
well-defined output format -- typically a flat, lay-down-style representation
of the garment -- making it a promising tool for data generation and dataset
enhancement. However, existing VTOFF approaches face two major limitations: (i)
difficulty in disentangling garment features from occlusions and complex poses,
often leading to visual artifacts, and (ii) restricted applicability to
single-category garments (e.g., upper-body clothes only), limiting
generalization. To address these challenges, we present Text-Enhanced
MUlti-category Virtual Try-Off (TEMU-VTOFF), a novel architecture featuring a
dual DiT-based backbone with a modified multimodal attention mechanism for
robust garment feature extraction. Our architecture is designed to receive
garment information from multiple modalities like images, text, and masks to
work in a multi-category setting. Finally, we propose an additional alignment
module to further refine the generated visual details. Experiments on VITON-HD
and Dress Code datasets show that TEMU-VTOFF sets a new state-of-the-art on the
VTOFF task, significantly improving both visual quality and fidelity to the
target garments.