DreamVVT: Dominando la Prueba Virtual de Videos Realistas en Entornos Naturales mediante un Marco de Transformador de Difusión por Etapas

Resumen

La tecnología de prueba virtual de video (VTV) ha captado un considerable interés académico debido a sus prometedoras aplicaciones en publicidad de comercio electrónico y entretenimiento. Sin embargo, la mayoría de los métodos existentes de extremo a extremo dependen en gran medida de conjuntos de datos escasos centrados en prendas de vestir y no logran aprovechar eficazmente los conocimientos previos de modelos visuales avanzados y entradas en tiempo de prueba, lo que dificulta la preservación precisa de detalles finos de las prendas y la consistencia temporal en escenarios no restringidos. Para abordar estos desafíos, proponemos DreamVVT, un marco de dos etapas cuidadosamente diseñado basado en Transformadores de Difusión (DiTs), que es inherentemente capaz de aprovechar diversos datos no emparejados centrados en humanos para mejorar la adaptabilidad en escenarios del mundo real. Para aprovechar aún más el conocimiento previo de modelos preentrenados y entradas en tiempo de prueba, en la primera etapa, muestreamos cuadros representativos del video de entrada y utilizamos un modelo de prueba de múltiples cuadros integrado con un modelo de visión-lenguaje (VLM), para sintetizar imágenes de prueba de cuadros clave de alta fidelidad y semánticamente consistentes. Estas imágenes sirven como guía de apariencia complementaria para la generación de video posterior. En la segunda etapa, se extraen mapas de esqueleto junto con descripciones detalladas de movimiento y apariencia del contenido de entrada, y estos junto con las imágenes de prueba de cuadros clave se alimentan en un modelo de generación de video preentrenado mejorado con adaptadores LoRA. Esto asegura la coherencia temporal a largo plazo para regiones no vistas y permite movimientos dinámicos altamente plausibles. Experimentos cuantitativos y cualitativos extensos demuestran que DreamVVT supera a los métodos existentes en la preservación de contenido detallado de prendas y estabilidad temporal en escenarios del mundo real. Nuestra página del proyecto https://virtu-lab.github.io/

English

Video virtual try-on (VVT) technology has garnered considerable academic interest owing to its promising applications in e-commerce advertising and entertainment. However, most existing end-to-end methods rely heavily on scarce paired garment-centric datasets and fail to effectively leverage priors of advanced visual models and test-time inputs, making it challenging to accurately preserve fine-grained garment details and maintain temporal consistency in unconstrained scenarios. To address these challenges, we propose DreamVVT, a carefully designed two-stage framework built upon Diffusion Transformers (DiTs), which is inherently capable of leveraging diverse unpaired human-centric data to enhance adaptability in real-world scenarios. To further leverage prior knowledge from pretrained models and test-time inputs, in the first stage, we sample representative frames from the input video and utilize a multi-frame try-on model integrated with a vision-language model (VLM), to synthesize high-fidelity and semantically consistent keyframe try-on images. These images serve as complementary appearance guidance for subsequent video generation. In the second stage, skeleton maps together with fine-grained motion and appearance descriptions are extracted from the input content, and these along with the keyframe try-on images are then fed into a pretrained video generation model enhanced with LoRA adapters. This ensures long-term temporal coherence for unseen regions and enables highly plausible dynamic motions. Extensive quantitative and qualitative experiments demonstrate that DreamVVT surpasses existing methods in preserving detailed garment content and temporal stability in real-world scenarios. Our project page https://virtu-lab.github.io/

DreamVVT: Dominando la Prueba Virtual de Videos Realistas en Entornos Naturales mediante un Marco de Transformador de Difusión por Etapas

DreamVVT: Mastering Realistic Video Virtual Try-On in the Wild via a Stage-Wise Diffusion Transformer Framework

Resumen

Support