Voost: Ein einheitlicher und skalierbarer Diffusions-Transformer für bidirektionales virtuelles An- und Ausprobieren

Zusammenfassung

Virtual Try-on zielt darauf ab, ein realistisches Bild einer Person zu synthetisieren, die ein bestimmtes Kleidungsstück trägt, doch die präzise Modellierung der Korrespondenz zwischen Kleidung und Körper bleibt eine anhaltende Herausforderung, insbesondere bei Variationen in Pose und Erscheinung. In diesem Artikel stellen wir Voost vor – ein einheitliches und skalierbares Framework, das Virtual Try-on und Try-off gemeinsam mit einem einzigen Diffusion Transformer lernt. Durch die gemeinsame Modellierung beider Aufgaben ermöglicht Voost, dass jedes Kleidungsstück-Person-Paar beide Richtungen überwacht und eine flexible Konditionierung über die Generierungsrichtung und Kleidungskategorie unterstützt, wodurch die relationale Schlussfolgerung zwischen Kleidung und Körper verbessert wird, ohne auf aufgabenspezifische Netzwerke, zusätzliche Verlustfunktionen oder zusätzliche Labels zurückzugreifen. Darüber hinaus führen wir zwei Inferenzzeit-Techniken ein: Attention Temperature Scaling für Robustheit gegenüber Auflösungs- oder Maskenvariationen und Self-Corrective Sampling, das die bidirektionale Konsistenz zwischen den Aufgaben nutzt. Umfangreiche Experimente zeigen, dass Voost state-of-the-art Ergebnisse sowohl bei Try-on- als auch bei Try-off-Benchmarks erzielt und starke Baselines in Bezug auf Ausrichtungsgenauigkeit, visuelle Qualität und Generalisierung konsequent übertrifft.

English

Virtual try-on aims to synthesize a realistic image of a person wearing a target garment, but accurately modeling garment-body correspondence remains a persistent challenge, especially under pose and appearance variation. In this paper, we propose Voost - a unified and scalable framework that jointly learns virtual try-on and try-off with a single diffusion transformer. By modeling both tasks jointly, Voost enables each garment-person pair to supervise both directions and supports flexible conditioning over generation direction and garment category, enhancing garment-body relational reasoning without task-specific networks, auxiliary losses, or additional labels. In addition, we introduce two inference-time techniques: attention temperature scaling for robustness to resolution or mask variation, and self-corrective sampling that leverages bidirectional consistency between tasks. Extensive experiments demonstrate that Voost achieves state-of-the-art results on both try-on and try-off benchmarks, consistently outperforming strong baselines in alignment accuracy, visual fidelity, and generalization.