Inverse Virtuele Passessie: Het Genereren van Multi-Categorie Product-Stijl Afbeeldingen vanuit Geklede Personen

Samenvatting

Terwijl virtuele pas-systemen (VTON) gericht zijn op het weergeven van een kledingstuk op een doelpersoonafbeelding, behandelt dit artikel de nieuwe taak van virtueel afpassen (VTOFF), waarbij het omgekeerde probleem wordt aangepakt: het genereren van gestandaardiseerde productafbeeldingen van kledingstukken uit real-world foto's van geklede individuen. In tegenstelling tot VTON, dat diverse houdingen en stijlvariaties moet oplossen, profiteert VTOFF van een consistent en goed gedefinieerd uitvoerformaat — meestal een platte, liggende weergave van het kledingstuk — wat het een veelbelovend hulpmiddel maakt voor datageneratie en datasetverbetering. Bestaande VTOFF-benaderingen kampen echter met twee belangrijke beperkingen: (i) moeilijkheden bij het ontwarren van kledingkenmerken uit occlusies en complexe houdingen, wat vaak leidt tot visuele artefacten, en (ii) beperkte toepasbaarheid op kledingstukken van één categorie (bijv. alleen bovenlichaamkleding), wat de generalisatie beperkt. Om deze uitdagingen aan te pakken, presenteren we Text-Enhanced MUlti-category Virtual Try-Off (TEMU-VTOFF), een nieuwe architectuur met een dubbele DiT-gebaseerde backbone en een aangepast multimodaal aandachtmechanisme voor robuuste extractie van kledingkenmerken. Onze architectuur is ontworpen om kledinginformatie uit meerdere modaliteiten zoals afbeeldingen, tekst en maskers te ontvangen, zodat deze in een multi-categorie-instelling kan werken. Ten slotte stellen we een extra uitlijningsmodule voor om de gegenereerde visuele details verder te verfijnen. Experimenten op de VITON-HD en Dress Code-datasets tonen aan dat TEMU-VTOFF een nieuwe state-of-the-art bereikt voor de VTOFF-taak, waarbij zowel de visuele kwaliteit als de trouw aan de doelkledingstukken aanzienlijk worden verbeterd.

English

While virtual try-on (VTON) systems aim to render a garment onto a target person image, this paper tackles the novel task of virtual try-off (VTOFF), which addresses the inverse problem: generating standardized product images of garments from real-world photos of clothed individuals. Unlike VTON, which must resolve diverse pose and style variations, VTOFF benefits from a consistent and well-defined output format -- typically a flat, lay-down-style representation of the garment -- making it a promising tool for data generation and dataset enhancement. However, existing VTOFF approaches face two major limitations: (i) difficulty in disentangling garment features from occlusions and complex poses, often leading to visual artifacts, and (ii) restricted applicability to single-category garments (e.g., upper-body clothes only), limiting generalization. To address these challenges, we present Text-Enhanced MUlti-category Virtual Try-Off (TEMU-VTOFF), a novel architecture featuring a dual DiT-based backbone with a modified multimodal attention mechanism for robust garment feature extraction. Our architecture is designed to receive garment information from multiple modalities like images, text, and masks to work in a multi-category setting. Finally, we propose an additional alignment module to further refine the generated visual details. Experiments on VITON-HD and Dress Code datasets show that TEMU-VTOFF sets a new state-of-the-art on the VTOFF task, significantly improving both visual quality and fidelity to the target garments.

Inverse Virtuele Passessie: Het Genereren van Multi-Categorie Product-Stijl Afbeeldingen vanuit Geklede Personen

Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals

Samenvatting

Support