EVTAR : Essayage de Bout en Bout avec Référence Visuelle Non Appariée Supplémentaire

papers.abstract

Nous proposons EVTAR, un modèle d'essayage virtuel de bout en bout avec référence additionnelle, qui ajuste directement le vêtement cible sur l'image de la personne tout en incorporant des images de référence pour améliorer la précision de l'essayage. La plupart des approches existantes d'essayage virtuel reposent sur des entrées complexes telles que des images de personnes agnostiques, la pose humaine, le densepose ou les points clés du corps, ce qui les rend laborieuses et peu pratiques pour les applications réelles. En revanche, EVTAR adopte une stratégie d'apprentissage en deux étapes, permettant une inférence simple avec uniquement l'image source et les vêtements cibles en entrée. Notre modèle génère des résultats d'essayage sans masques, sans densepose ni cartes de segmentation. De plus, EVTAR exploite des images de référence additionnelles de différentes personnes portant les mêmes vêtements pour mieux préserver la texture du vêtement et les détails fins. Ce mécanisme est analogue à la manière dont les humains considèrent les modèles de référence lorsqu'ils choisissent des tenues, simulant ainsi un effet d'habillage plus réaliste et de meilleure qualité. Nous enrichissons les données d'apprentissage avec des références supplémentaires et des images de personnes non appariées pour soutenir ces capacités. Nous évaluons EVTAR sur deux benchmarks largement utilisés et diverses tâches, et les résultats valident systématiquement l'efficacité de notre approche.

English

We propose EVTAR, an End-to-End Virtual Try-on model with Additional Reference, that directly fits the target garment onto the person image while incorporating reference images to enhance try-on accuracy. Most existing virtual try-on approaches rely on complex inputs such as agnostic person images, human pose, densepose, or body keypoints, making them labor-intensive and impractical for real-world applications. In contrast, EVTAR adopts a two-stage training strategy, enabling simple inference with only the source image and the target garment inputs. Our model generates try-on results without masks, densepose, or segmentation maps. Moreover, EVTAR leverages additional reference images of different individuals wearing the same clothes to preserve garment texture and fine-grained details better. This mechanism is analogous to how humans consider reference models when choosing outfits, thereby simulating a more realistic and high-quality dressing effect. We enrich the training data with supplementary references and unpaired person images to support these capabilities. We evaluate EVTAR on two widely used benchmarks and diverse tasks, and the results consistently validate the effectiveness of our approach.

EVTAR : Essayage de Bout en Bout avec Référence Visuelle Non Appariée Supplémentaire

EVTAR: End-to-End Try on with Additional Unpaired Visual Reference

papers.abstract

Support