EVTAR: Experimentação de Roupa de Ponta a Ponta com Referência Visual Não Emparelhada Adicional

Resumo

Propomos o EVTR, um modelo de Experimentação Virtual de Fim para Fim com Referência Adicional, que ajusta diretamente a peça de roupa alvo na imagem da pessoa, incorporando imagens de referência para aumentar a precisão da experimentação. A maioria das abordagens existentes de experimentação virtual depende de entradas complexas, como imagens agnósticas da pessoa, pose humana, *densepose* ou pontos-chave corporais, tornando-as trabalhosas e impraticáveis para aplicações do mundo real. Em contraste, o EVTAR adota uma estratégia de treinamento em dois estágios, permitindo uma inferência simples com apenas a imagem de origem e as entradas da peça de roupa alvo. Nosso modelo gera resultados de experimentação sem máscaras, *densepose* ou mapas de segmentação. Além disso, o EVTAR aproveita imagens de referência adicionais de diferentes indivíduos vestindo as mesmas roupas para preservar melhor a textura da peça e os detalhes refinados. Este mecanismo é análogo à forma como os humanos consideram modelos de referência ao escolher roupas, simulando assim um efeito de vestir mais realista e de alta qualidade. Enriquecemos os dados de treinamento com referências suplementares e imagens de pessoas não pareadas para suportar essas capacidades. Avaliamos o EVTAR em dois *benchmarks* amplamente utilizados e em diversas tarefas, e os resultados validam consistentemente a eficácia da nossa abordagem.

English

We propose EVTAR, an End-to-End Virtual Try-on model with Additional Reference, that directly fits the target garment onto the person image while incorporating reference images to enhance try-on accuracy. Most existing virtual try-on approaches rely on complex inputs such as agnostic person images, human pose, densepose, or body keypoints, making them labor-intensive and impractical for real-world applications. In contrast, EVTAR adopts a two-stage training strategy, enabling simple inference with only the source image and the target garment inputs. Our model generates try-on results without masks, densepose, or segmentation maps. Moreover, EVTAR leverages additional reference images of different individuals wearing the same clothes to preserve garment texture and fine-grained details better. This mechanism is analogous to how humans consider reference models when choosing outfits, thereby simulating a more realistic and high-quality dressing effect. We enrich the training data with supplementary references and unpaired person images to support these capabilities. We evaluate EVTAR on two widely used benchmarks and diverse tasks, and the results consistently validate the effectiveness of our approach.

EVTAR: Experimentação de Roupa de Ponta a Ponta com Referência Visual Não Emparelhada Adicional

EVTAR: End-to-End Try on with Additional Unpaired Visual Reference

Resumo

Support