Voost: Un Transformador de Difusión Unificado y Escalable para Pruebas Virtuales Bidireccionales de Puesta y Quitado de Ropa
Voost: A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off
August 6, 2025
Autores: Seungyong Lee, Jeong-gi Kwak
cs.AI
Resumen
La prueba virtual de prendas tiene como objetivo sintetizar una imagen realista de una persona vistiendo una prenda objetivo, pero modelar con precisión la correspondencia entre la prenda y el cuerpo sigue siendo un desafío persistente, especialmente bajo variaciones de pose y apariencia. En este artículo, proponemos Voost: un marco unificado y escalable que aprende conjuntamente la prueba virtual de prendas y su retirada mediante un único transformador de difusión. Al modelar ambas tareas de manera conjunta, Voost permite que cada par prenda-persona supervise ambas direcciones y admite un condicionamiento flexible sobre la dirección de generación y la categoría de la prenda, mejorando el razonamiento relacional entre la prenda y el cuerpo sin necesidad de redes específicas para cada tarea, pérdidas auxiliares o etiquetas adicionales. Además, introducimos dos técnicas en tiempo de inferencia: el escalado de temperatura de atención para robustez frente a variaciones de resolución o máscara, y el muestreo autocorrectivo que aprovecha la consistencia bidireccional entre tareas. Experimentos exhaustivos demuestran que Voost logra resultados de vanguardia en los puntos de referencia tanto para la prueba como para la retirada de prendas, superando consistentemente a las líneas base fuertes en precisión de alineación, fidelidad visual y generalización.
English
Virtual try-on aims to synthesize a realistic image of a person wearing a
target garment, but accurately modeling garment-body correspondence remains a
persistent challenge, especially under pose and appearance variation. In this
paper, we propose Voost - a unified and scalable framework that jointly learns
virtual try-on and try-off with a single diffusion transformer. By modeling
both tasks jointly, Voost enables each garment-person pair to supervise both
directions and supports flexible conditioning over generation direction and
garment category, enhancing garment-body relational reasoning without
task-specific networks, auxiliary losses, or additional labels. In addition, we
introduce two inference-time techniques: attention temperature scaling for
robustness to resolution or mask variation, and self-corrective sampling that
leverages bidirectional consistency between tasks. Extensive experiments
demonstrate that Voost achieves state-of-the-art results on both try-on and
try-off benchmarks, consistently outperforming strong baselines in alignment
accuracy, visual fidelity, and generalization.