ChatPaper.aiChatPaper

Geração Inversa de Experimentação Virtual: Criando Imagens de Estilo de Produtos em Múltiplas Categorias a partir de Indivíduos Vestidos

Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals

May 27, 2025
Autores: Davide Lobba, Fulvio Sanguigni, Bin Ren, Marcella Cornia, Rita Cucchiara, Nicu Sebe
cs.AI

Resumo

Enquanto os sistemas de experimentação virtual (VTON) visam renderizar uma peça de roupa em uma imagem de uma pessoa alvo, este artigo aborda a nova tarefa de remoção virtual (VTOFF), que trata do problema inverso: gerar imagens padronizadas de produtos de roupas a partir de fotos reais de indivíduos vestidos. Diferente do VTON, que deve resolver diversas variações de pose e estilo, o VTOFF se beneficia de um formato de saída consistente e bem definido -- tipicamente uma representação plana e deitada da peça de roupa -- tornando-o uma ferramenta promissora para geração de dados e aprimoramento de conjuntos de dados. No entanto, as abordagens existentes de VTOFF enfrentam duas grandes limitações: (i) dificuldade em separar as características da roupa de oclusões e poses complexas, frequentemente resultando em artefatos visuais, e (ii) aplicabilidade restrita a peças de uma única categoria (por exemplo, apenas roupas da parte superior do corpo), limitando a generalização. Para enfrentar esses desafios, apresentamos o Text-Enhanced MUlti-category Virtual Try-Off (TEMU-VTOFF), uma nova arquitetura que apresenta uma estrutura dual baseada em DiT com um mecanismo de atenção multimodal modificado para extração robusta de características da roupa. Nossa arquitetura é projetada para receber informações da roupa de múltiplas modalidades, como imagens, texto e máscaras, para funcionar em um cenário de múltiplas categorias. Por fim, propomos um módulo adicional de alinhamento para refinar ainda mais os detalhes visuais gerados. Experimentos nos conjuntos de dados VITON-HD e Dress Code mostram que o TEMU-VTOFF estabelece um novo estado da arte na tarefa de VTOFF, melhorando significativamente tanto a qualidade visual quanto a fidelidade às peças de roupa alvo.
English
While virtual try-on (VTON) systems aim to render a garment onto a target person image, this paper tackles the novel task of virtual try-off (VTOFF), which addresses the inverse problem: generating standardized product images of garments from real-world photos of clothed individuals. Unlike VTON, which must resolve diverse pose and style variations, VTOFF benefits from a consistent and well-defined output format -- typically a flat, lay-down-style representation of the garment -- making it a promising tool for data generation and dataset enhancement. However, existing VTOFF approaches face two major limitations: (i) difficulty in disentangling garment features from occlusions and complex poses, often leading to visual artifacts, and (ii) restricted applicability to single-category garments (e.g., upper-body clothes only), limiting generalization. To address these challenges, we present Text-Enhanced MUlti-category Virtual Try-Off (TEMU-VTOFF), a novel architecture featuring a dual DiT-based backbone with a modified multimodal attention mechanism for robust garment feature extraction. Our architecture is designed to receive garment information from multiple modalities like images, text, and masks to work in a multi-category setting. Finally, we propose an additional alignment module to further refine the generated visual details. Experiments on VITON-HD and Dress Code datasets show that TEMU-VTOFF sets a new state-of-the-art on the VTOFF task, significantly improving both visual quality and fidelity to the target garments.
PDF31December 4, 2025