Voost: Een Geünificeerde en Schaalbare Diffusie Transformer voor Bidirectionele Virtuele Passen en Uittrekken
Voost: A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off
August 6, 2025
Auteurs: Seungyong Lee, Jeong-gi Kwak
cs.AI
Samenvatting
Virtueel passen heeft als doel een realistisch beeld te synthetiseren van een persoon die een bepaald kledingstuk draagt, maar het nauwkeurig modelleren van de overeenkomst tussen kleding en lichaam blijft een hardnekkige uitdaging, vooral bij variaties in houding en uiterlijk. In dit artikel stellen we Voost voor - een uniform en schaalbaar raamwerk dat zowel virtueel passen als uitproberen gezamenlijk leert met een enkele diffusie-transformer. Door beide taken gezamenlijk te modelleren, stelt Voost elk kleding-persoon paar in staat om beide richtingen te begeleiden en ondersteunt het flexibele conditionering over generatierichting en kledingcategorie, waardoor de redenering over de relatie tussen kleding en lichaam wordt verbeterd zonder taakspecifieke netwerken, aanvullende verliezen of extra labels. Daarnaast introduceren we twee technieken voor inferentietijd: aandachtstemperatuurschaling voor robuustheid tegen variaties in resolutie of masker, en zelfcorrigerende steekproeven die gebruikmaken van bidirectionele consistentie tussen taken. Uitgebreide experimenten tonen aan dat Voost state-of-the-art resultaten behaalt op zowel pass- als uitprobeerbenchmarks, en consequent sterke basislijnen overtreft in uitlijningsnauwkeurigheid, visuele geloofwaardigheid en generalisatie.
English
Virtual try-on aims to synthesize a realistic image of a person wearing a
target garment, but accurately modeling garment-body correspondence remains a
persistent challenge, especially under pose and appearance variation. In this
paper, we propose Voost - a unified and scalable framework that jointly learns
virtual try-on and try-off with a single diffusion transformer. By modeling
both tasks jointly, Voost enables each garment-person pair to supervise both
directions and supports flexible conditioning over generation direction and
garment category, enhancing garment-body relational reasoning without
task-specific networks, auxiliary losses, or additional labels. In addition, we
introduce two inference-time techniques: attention temperature scaling for
robustness to resolution or mask variation, and self-corrective sampling that
leverages bidirectional consistency between tasks. Extensive experiments
demonstrate that Voost achieves state-of-the-art results on both try-on and
try-off benchmarks, consistently outperforming strong baselines in alignment
accuracy, visual fidelity, and generalization.