ChatPaper.aiChatPaper

Fashion-VDM: Modelo de Difusión de Video para Pruebas Virtuales de Indumentaria.

Fashion-VDM: Video Diffusion Model for Virtual Try-On

October 31, 2024
Autores: Johanna Karras, Yingwei Li, Nan Liu, Luyang Zhu, Innfarn Yoo, Andreas Lugmayr, Chris Lee, Ira Kemelmacher-Shlizerman
cs.AI

Resumen

Presentamos Fashion-VDM, un modelo de difusión de video (VDM) para generar videos de prueba virtual. Dado una imagen de prenda de vestir de entrada y un video de persona, nuestro método tiene como objetivo generar un video de prueba de alta calidad de la persona vistiendo la prenda dada, manteniendo la identidad y el movimiento de la persona. La prueba virtual basada en imágenes ha demostrado resultados impresionantes; sin embargo, los métodos existentes de prueba virtual de video (VVT) aún carecen de detalles de prendas y consistencia temporal. Para abordar estos problemas, proponemos una arquitectura basada en difusión para la prueba virtual de video, guía dividida sin clasificador para un mayor control sobre las entradas de condicionamiento, y una estrategia de entrenamiento temporal progresiva para la generación de video de 64 cuadros de un solo pase, 512px. También demostramos la efectividad del entrenamiento conjunto de imagen-video para la prueba de video, especialmente cuando los datos de video son limitados. Nuestros experimentos cualitativos y cuantitativos muestran que nuestro enfoque establece el nuevo estado del arte para la prueba virtual de video. Para resultados adicionales, visite nuestra página del proyecto: https://johannakarras.github.io/Fashion-VDM.
English
We present Fashion-VDM, a video diffusion model (VDM) for generating virtual try-on videos. Given an input garment image and person video, our method aims to generate a high-quality try-on video of the person wearing the given garment, while preserving the person's identity and motion. Image-based virtual try-on has shown impressive results; however, existing video virtual try-on (VVT) methods are still lacking garment details and temporal consistency. To address these issues, we propose a diffusion-based architecture for video virtual try-on, split classifier-free guidance for increased control over the conditioning inputs, and a progressive temporal training strategy for single-pass 64-frame, 512px video generation. We also demonstrate the effectiveness of joint image-video training for video try-on, especially when video data is limited. Our qualitative and quantitative experiments show that our approach sets the new state-of-the-art for video virtual try-on. For additional results, visit our project page: https://johannakarras.github.io/Fashion-VDM.

Summary

AI-Generated Summary

PDF112November 13, 2024