Fashion-VDM: Modelo de Difusión de Video para Pruebas Virtuales de Indumentaria.
Fashion-VDM: Video Diffusion Model for Virtual Try-On
October 31, 2024
Autores: Johanna Karras, Yingwei Li, Nan Liu, Luyang Zhu, Innfarn Yoo, Andreas Lugmayr, Chris Lee, Ira Kemelmacher-Shlizerman
cs.AI
Resumen
Presentamos Fashion-VDM, un modelo de difusión de video (VDM) para generar videos de prueba virtual. Dado una imagen de prenda de vestir de entrada y un video de persona, nuestro método tiene como objetivo generar un video de prueba de alta calidad de la persona vistiendo la prenda dada, manteniendo la identidad y el movimiento de la persona. La prueba virtual basada en imágenes ha demostrado resultados impresionantes; sin embargo, los métodos existentes de prueba virtual de video (VVT) aún carecen de detalles de prendas y consistencia temporal. Para abordar estos problemas, proponemos una arquitectura basada en difusión para la prueba virtual de video, guía dividida sin clasificador para un mayor control sobre las entradas de condicionamiento, y una estrategia de entrenamiento temporal progresiva para la generación de video de 64 cuadros de un solo pase, 512px. También demostramos la efectividad del entrenamiento conjunto de imagen-video para la prueba de video, especialmente cuando los datos de video son limitados. Nuestros experimentos cualitativos y cuantitativos muestran que nuestro enfoque establece el nuevo estado del arte para la prueba virtual de video. Para resultados adicionales, visite nuestra página del proyecto: https://johannakarras.github.io/Fashion-VDM.
English
We present Fashion-VDM, a video diffusion model (VDM) for generating virtual
try-on videos. Given an input garment image and person video, our method aims
to generate a high-quality try-on video of the person wearing the given
garment, while preserving the person's identity and motion. Image-based virtual
try-on has shown impressive results; however, existing video virtual try-on
(VVT) methods are still lacking garment details and temporal consistency. To
address these issues, we propose a diffusion-based architecture for video
virtual try-on, split classifier-free guidance for increased control over the
conditioning inputs, and a progressive temporal training strategy for
single-pass 64-frame, 512px video generation. We also demonstrate the
effectiveness of joint image-video training for video try-on, especially when
video data is limited. Our qualitative and quantitative experiments show that
our approach sets the new state-of-the-art for video virtual try-on. For
additional results, visit our project page:
https://johannakarras.github.io/Fashion-VDM.Summary
AI-Generated Summary