Essai Virtuel Inverse : Génération d'Images de Style Produit Multi-Catégories à partir d'Individus Vêtus
Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals
May 27, 2025
Auteurs: Davide Lobba, Fulvio Sanguigni, Bin Ren, Marcella Cornia, Rita Cucchiara, Nicu Sebe
cs.AI
Résumé
Alors que les systèmes d'essayage virtuel (VTON) visent à superposer un vêtement sur une image d'une personne cible, cet article aborde la nouvelle tâche de déshabillage virtuel (VTOFF), qui traite du problème inverse : générer des images standardisées de produits vestimentaires à partir de photos réelles de personnes habillées. Contrairement au VTON, qui doit gérer des variations de pose et de style diverses, le VTOFF bénéficie d'un format de sortie cohérent et bien défini — généralement une représentation à plat du vêtement en position allongée — ce qui en fait un outil prometteur pour la génération de données et l'amélioration des jeux de données. Cependant, les approches existantes de VTOFF rencontrent deux limitations majeures : (i) la difficulté à dissocier les caractéristiques du vêtement des occlusions et des poses complexes, entraînant souvent des artefacts visuels, et (ii) une applicabilité restreinte aux vêtements d'une seule catégorie (par exemple, uniquement les vêtements du haut du corps), limitant ainsi la généralisation. Pour relever ces défis, nous présentons TEMU-VTOFF (Text-Enhanced MUlti-category Virtual Try-Off), une nouvelle architecture dotée d'une double structure de base basée sur DiT avec un mécanisme d'attention multimodale modifié pour une extraction robuste des caractéristiques du vêtement. Notre architecture est conçue pour recevoir des informations sur le vêtement à partir de multiples modalités telles que les images, le texte et les masques, afin de fonctionner dans un contexte multicatégoriel. Enfin, nous proposons un module d'alignement supplémentaire pour affiner davantage les détails visuels générés. Les expériences menées sur les jeux de données VITON-HD et Dress Code montrent que TEMU-VTOFF établit un nouvel état de l'art dans la tâche de VTOFF, améliorant significativement à la fois la qualité visuelle et la fidélité aux vêtements cibles.
English
While virtual try-on (VTON) systems aim to render a garment onto a target
person image, this paper tackles the novel task of virtual try-off (VTOFF),
which addresses the inverse problem: generating standardized product images of
garments from real-world photos of clothed individuals. Unlike VTON, which must
resolve diverse pose and style variations, VTOFF benefits from a consistent and
well-defined output format -- typically a flat, lay-down-style representation
of the garment -- making it a promising tool for data generation and dataset
enhancement. However, existing VTOFF approaches face two major limitations: (i)
difficulty in disentangling garment features from occlusions and complex poses,
often leading to visual artifacts, and (ii) restricted applicability to
single-category garments (e.g., upper-body clothes only), limiting
generalization. To address these challenges, we present Text-Enhanced
MUlti-category Virtual Try-Off (TEMU-VTOFF), a novel architecture featuring a
dual DiT-based backbone with a modified multimodal attention mechanism for
robust garment feature extraction. Our architecture is designed to receive
garment information from multiple modalities like images, text, and masks to
work in a multi-category setting. Finally, we propose an additional alignment
module to further refine the generated visual details. Experiments on VITON-HD
and Dress Code datasets show that TEMU-VTOFF sets a new state-of-the-art on the
VTOFF task, significantly improving both visual quality and fidelity to the
target garments.Summary
AI-Generated Summary