Prueba Virtual Inversa: Generación de Imágenes de Estilo de Productos Multi-Categoría a partir de Individuos Vestidos
Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals
May 27, 2025
Autores: Davide Lobba, Fulvio Sanguigni, Bin Ren, Marcella Cornia, Rita Cucchiara, Nicu Sebe
cs.AI
Resumen
Mientras que los sistemas de prueba virtual (VTON) buscan renderizar una prenda sobre la imagen de una persona objetivo, este artículo aborda la novedosa tarea de desprueba virtual (VTOFF), que resuelve el problema inverso: generar imágenes estandarizadas de productos a partir de fotografías del mundo real de individuos vestidos. A diferencia del VTON, que debe manejar variaciones diversas en posturas y estilos, el VTOFF se beneficia de un formato de salida consistente y bien definido — típicamente una representación plana y extendida de la prenda —, lo que lo convierte en una herramienta prometedora para la generación de datos y la mejora de conjuntos de datos. Sin embargo, los enfoques existentes de VTOFF enfrentan dos limitaciones principales: (i) dificultad para separar las características de la prenda de oclusiones y posturas complejas, lo que a menudo resulta en artefactos visuales, y (ii) aplicabilidad restringida a prendas de una sola categoría (por ejemplo, solo ropa de la parte superior del cuerpo), limitando la generalización. Para abordar estos desafíos, presentamos Text-Enhanced MUlti-category Virtual Try-Off (TEMU-VTOFF), una arquitectura novedosa que cuenta con un backbone dual basado en DiT con un mecanismo de atención multimodal modificado para una extracción robusta de características de la prenda. Nuestra arquitectura está diseñada para recibir información de la prenda desde múltiples modalidades, como imágenes, texto y máscaras, para funcionar en un entorno de múltiples categorías. Finalmente, proponemos un módulo adicional de alineación para refinar aún más los detalles visuales generados. Los experimentos en los conjuntos de datos VITON-HD y Dress Code muestran que TEMU-VTOFF establece un nuevo estado del arte en la tarea VTOFF, mejorando significativamente tanto la calidad visual como la fidelidad a las prendas objetivo.
English
While virtual try-on (VTON) systems aim to render a garment onto a target
person image, this paper tackles the novel task of virtual try-off (VTOFF),
which addresses the inverse problem: generating standardized product images of
garments from real-world photos of clothed individuals. Unlike VTON, which must
resolve diverse pose and style variations, VTOFF benefits from a consistent and
well-defined output format -- typically a flat, lay-down-style representation
of the garment -- making it a promising tool for data generation and dataset
enhancement. However, existing VTOFF approaches face two major limitations: (i)
difficulty in disentangling garment features from occlusions and complex poses,
often leading to visual artifacts, and (ii) restricted applicability to
single-category garments (e.g., upper-body clothes only), limiting
generalization. To address these challenges, we present Text-Enhanced
MUlti-category Virtual Try-Off (TEMU-VTOFF), a novel architecture featuring a
dual DiT-based backbone with a modified multimodal attention mechanism for
robust garment feature extraction. Our architecture is designed to receive
garment information from multiple modalities like images, text, and masks to
work in a multi-category setting. Finally, we propose an additional alignment
module to further refine the generated visual details. Experiments on VITON-HD
and Dress Code datasets show that TEMU-VTOFF sets a new state-of-the-art on the
VTOFF task, significantly improving both visual quality and fidelity to the
target garments.Summary
AI-Generated Summary