EVTAR: Experimentação de Roupa de Ponta a Ponta com Referência Visual Não Emparelhada Adicional
EVTAR: End-to-End Try on with Additional Unpaired Visual Reference
November 2, 2025
Autores: Liuzhuozheng Li, Yue Gong, Shanyuan Liu, Bo Cheng, Yuhang Ma, Liebucha Wu, Dengyang Jiang, Zanyi Wang, Dawei Leng, Yuhui Yin
cs.AI
Resumo
Propomos o EVTR, um modelo de Experimentação Virtual de Fim para Fim com Referência Adicional, que ajusta diretamente a peça de roupa alvo na imagem da pessoa, incorporando imagens de referência para aumentar a precisão da experimentação. A maioria das abordagens existentes de experimentação virtual depende de entradas complexas, como imagens agnósticas da pessoa, pose humana, *densepose* ou pontos-chave corporais, tornando-as trabalhosas e impraticáveis para aplicações do mundo real. Em contraste, o EVTAR adota uma estratégia de treinamento em dois estágios, permitindo uma inferência simples com apenas a imagem de origem e as entradas da peça de roupa alvo. Nosso modelo gera resultados de experimentação sem máscaras, *densepose* ou mapas de segmentação. Além disso, o EVTAR aproveita imagens de referência adicionais de diferentes indivíduos vestindo as mesmas roupas para preservar melhor a textura da peça e os detalhes refinados. Este mecanismo é análogo à forma como os humanos consideram modelos de referência ao escolher roupas, simulando assim um efeito de vestir mais realista e de alta qualidade. Enriquecemos os dados de treinamento com referências suplementares e imagens de pessoas não pareadas para suportar essas capacidades. Avaliamos o EVTAR em dois *benchmarks* amplamente utilizados e em diversas tarefas, e os resultados validam consistentemente a eficácia da nossa abordagem.
English
We propose EVTAR, an End-to-End Virtual Try-on model with Additional
Reference, that directly fits the target garment onto the person image while
incorporating reference images to enhance try-on accuracy. Most existing
virtual try-on approaches rely on complex inputs such as agnostic person
images, human pose, densepose, or body keypoints, making them labor-intensive
and impractical for real-world applications. In contrast, EVTAR adopts a
two-stage training strategy, enabling simple inference with only the source
image and the target garment inputs. Our model generates try-on results without
masks, densepose, or segmentation maps. Moreover, EVTAR leverages additional
reference images of different individuals wearing the same clothes to preserve
garment texture and fine-grained details better. This mechanism is analogous to
how humans consider reference models when choosing outfits, thereby simulating
a more realistic and high-quality dressing effect. We enrich the training data
with supplementary references and unpaired person images to support these
capabilities. We evaluate EVTAR on two widely used benchmarks and diverse
tasks, and the results consistently validate the effectiveness of our approach.