Voost: Ein einheitlicher und skalierbarer Diffusions-Transformer für bidirektionales virtuelles An- und Ausprobieren
Voost: A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off
August 6, 2025
papers.authors: Seungyong Lee, Jeong-gi Kwak
cs.AI
papers.abstract
Virtual Try-on zielt darauf ab, ein realistisches Bild einer Person zu synthetisieren, die ein bestimmtes Kleidungsstück trägt, doch die präzise Modellierung der Korrespondenz zwischen Kleidung und Körper bleibt eine anhaltende Herausforderung, insbesondere bei Variationen in Pose und Erscheinung. In diesem Artikel stellen wir Voost vor – ein einheitliches und skalierbares Framework, das Virtual Try-on und Try-off gemeinsam mit einem einzigen Diffusion Transformer lernt. Durch die gemeinsame Modellierung beider Aufgaben ermöglicht Voost, dass jedes Kleidungsstück-Person-Paar beide Richtungen überwacht und eine flexible Konditionierung über die Generierungsrichtung und Kleidungskategorie unterstützt, wodurch die relationale Schlussfolgerung zwischen Kleidung und Körper verbessert wird, ohne auf aufgabenspezifische Netzwerke, zusätzliche Verlustfunktionen oder zusätzliche Labels zurückzugreifen. Darüber hinaus führen wir zwei Inferenzzeit-Techniken ein: Attention Temperature Scaling für Robustheit gegenüber Auflösungs- oder Maskenvariationen und Self-Corrective Sampling, das die bidirektionale Konsistenz zwischen den Aufgaben nutzt. Umfangreiche Experimente zeigen, dass Voost state-of-the-art Ergebnisse sowohl bei Try-on- als auch bei Try-off-Benchmarks erzielt und starke Baselines in Bezug auf Ausrichtungsgenauigkeit, visuelle Qualität und Generalisierung konsequent übertrifft.
English
Virtual try-on aims to synthesize a realistic image of a person wearing a
target garment, but accurately modeling garment-body correspondence remains a
persistent challenge, especially under pose and appearance variation. In this
paper, we propose Voost - a unified and scalable framework that jointly learns
virtual try-on and try-off with a single diffusion transformer. By modeling
both tasks jointly, Voost enables each garment-person pair to supervise both
directions and supports flexible conditioning over generation direction and
garment category, enhancing garment-body relational reasoning without
task-specific networks, auxiliary losses, or additional labels. In addition, we
introduce two inference-time techniques: attention temperature scaling for
robustness to resolution or mask variation, and self-corrective sampling that
leverages bidirectional consistency between tasks. Extensive experiments
demonstrate that Voost achieves state-of-the-art results on both try-on and
try-off benchmarks, consistently outperforming strong baselines in alignment
accuracy, visual fidelity, and generalization.