ChatPaper.aiChatPaper

Voost : Un Transformeur de Diffusion Unifié et Évolutif pour l'Essayage et le Désessayage Virtuels Bidirectionnels

Voost: A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off

August 6, 2025
papers.authors: Seungyong Lee, Jeong-gi Kwak
cs.AI

papers.abstract

L'essayage virtuel vise à synthétiser une image réaliste d'une personne portant un vêtement cible, mais la modélisation précise de la correspondance entre le vêtement et le corps reste un défi persistant, en particulier face aux variations de pose et d'apparence. Dans cet article, nous proposons Voost - un cadre unifié et évolutif qui apprend conjointement l'essayage virtuel et le désessayage avec un seul transformateur de diffusion. En modélisant les deux tâches conjointement, Voost permet à chaque paire vêtement-personne de superviser les deux directions et prend en charge un conditionnement flexible sur la direction de génération et la catégorie de vêtement, améliorant le raisonnement relationnel entre le vêtement et le corps sans réseaux spécifiques à la tâche, pertes auxiliaires ou étiquettes supplémentaires. De plus, nous introduisons deux techniques d'inférence : la mise à l'échelle de la température d'attention pour une robustesse face aux variations de résolution ou de masque, et l'échantillonnage auto-correctif qui exploite la cohérence bidirectionnelle entre les tâches. Des expériences approfondies démontrent que Voost obtient des résultats de pointe sur les benchmarks d'essayage et de désessayage, surpassant systématiquement des bases de référence solides en termes de précision d'alignement, de fidélité visuelle et de généralisation.
English
Virtual try-on aims to synthesize a realistic image of a person wearing a target garment, but accurately modeling garment-body correspondence remains a persistent challenge, especially under pose and appearance variation. In this paper, we propose Voost - a unified and scalable framework that jointly learns virtual try-on and try-off with a single diffusion transformer. By modeling both tasks jointly, Voost enables each garment-person pair to supervise both directions and supports flexible conditioning over generation direction and garment category, enhancing garment-body relational reasoning without task-specific networks, auxiliary losses, or additional labels. In addition, we introduce two inference-time techniques: attention temperature scaling for robustness to resolution or mask variation, and self-corrective sampling that leverages bidirectional consistency between tasks. Extensive experiments demonstrate that Voost achieves state-of-the-art results on both try-on and try-off benchmarks, consistently outperforming strong baselines in alignment accuracy, visual fidelity, and generalization.
PDF493August 11, 2025