DreamVVT: Dominando la Prueba Virtual de Videos Realistas en Entornos Naturales mediante un Marco de Transformador de Difusión por Etapas
DreamVVT: Mastering Realistic Video Virtual Try-On in the Wild via a Stage-Wise Diffusion Transformer Framework
August 4, 2025
Autores: Tongchun Zuo, Zaiyu Huang, Shuliang Ning, Ente Lin, Chao Liang, Zerong Zheng, Jianwen Jiang, Yuan Zhang, Mingyuan Gao, Xin Dong
cs.AI
Resumen
La tecnología de prueba virtual de video (VTV) ha captado un considerable interés académico debido a sus prometedoras aplicaciones en publicidad de comercio electrónico y entretenimiento. Sin embargo, la mayoría de los métodos existentes de extremo a extremo dependen en gran medida de conjuntos de datos escasos centrados en prendas de vestir y no logran aprovechar eficazmente los conocimientos previos de modelos visuales avanzados y entradas en tiempo de prueba, lo que dificulta la preservación precisa de detalles finos de las prendas y la consistencia temporal en escenarios no restringidos. Para abordar estos desafíos, proponemos DreamVVT, un marco de dos etapas cuidadosamente diseñado basado en Transformadores de Difusión (DiTs), que es inherentemente capaz de aprovechar diversos datos no emparejados centrados en humanos para mejorar la adaptabilidad en escenarios del mundo real. Para aprovechar aún más el conocimiento previo de modelos preentrenados y entradas en tiempo de prueba, en la primera etapa, muestreamos cuadros representativos del video de entrada y utilizamos un modelo de prueba de múltiples cuadros integrado con un modelo de visión-lenguaje (VLM), para sintetizar imágenes de prueba de cuadros clave de alta fidelidad y semánticamente consistentes. Estas imágenes sirven como guía de apariencia complementaria para la generación de video posterior. En la segunda etapa, se extraen mapas de esqueleto junto con descripciones detalladas de movimiento y apariencia del contenido de entrada, y estos junto con las imágenes de prueba de cuadros clave se alimentan en un modelo de generación de video preentrenado mejorado con adaptadores LoRA. Esto asegura la coherencia temporal a largo plazo para regiones no vistas y permite movimientos dinámicos altamente plausibles. Experimentos cuantitativos y cualitativos extensos demuestran que DreamVVT supera a los métodos existentes en la preservación de contenido detallado de prendas y estabilidad temporal en escenarios del mundo real. Nuestra página del proyecto https://virtu-lab.github.io/
English
Video virtual try-on (VVT) technology has garnered considerable academic
interest owing to its promising applications in e-commerce advertising and
entertainment. However, most existing end-to-end methods rely heavily on scarce
paired garment-centric datasets and fail to effectively leverage priors of
advanced visual models and test-time inputs, making it challenging to
accurately preserve fine-grained garment details and maintain temporal
consistency in unconstrained scenarios. To address these challenges, we propose
DreamVVT, a carefully designed two-stage framework built upon Diffusion
Transformers (DiTs), which is inherently capable of leveraging diverse unpaired
human-centric data to enhance adaptability in real-world scenarios. To further
leverage prior knowledge from pretrained models and test-time inputs, in the
first stage, we sample representative frames from the input video and utilize a
multi-frame try-on model integrated with a vision-language model (VLM), to
synthesize high-fidelity and semantically consistent keyframe try-on images.
These images serve as complementary appearance guidance for subsequent video
generation. In the second stage, skeleton maps together with
fine-grained motion and appearance descriptions are extracted from the input
content, and these along with the keyframe try-on images are then fed into a
pretrained video generation model enhanced with LoRA adapters. This ensures
long-term temporal coherence for unseen regions and enables highly plausible
dynamic motions. Extensive quantitative and qualitative experiments demonstrate
that DreamVVT surpasses existing methods in preserving detailed garment content
and temporal stability in real-world scenarios. Our project page
https://virtu-lab.github.io/