Fashion-VDM: Modelo de Difusão de Vídeo para Prova Virtual.
Fashion-VDM: Video Diffusion Model for Virtual Try-On
October 31, 2024
Autores: Johanna Karras, Yingwei Li, Nan Liu, Luyang Zhu, Innfarn Yoo, Andreas Lugmayr, Chris Lee, Ira Kemelmacher-Shlizerman
cs.AI
Resumo
Apresentamos o Fashion-VDM, um modelo de difusão de vídeo (VDM) para gerar vídeos de provas virtuais. Dado uma imagem de vestuário de entrada e um vídeo de pessoa, nosso método tem como objetivo gerar um vídeo de prova de alta qualidade da pessoa vestindo o vestuário fornecido, preservando a identidade e movimento da pessoa. A prova virtual baseada em imagem tem mostrado resultados impressionantes; no entanto, os métodos existentes de prova virtual de vídeo (VVT) ainda carecem de detalhes de vestuário e consistência temporal. Para abordar essas questões, propomos uma arquitetura baseada em difusão para prova virtual de vídeo, orientação dividida sem classificador para maior controle sobre as entradas de condicionamento, e uma estratégia de treinamento temporal progressiva para geração de vídeo de 64 quadros em uma única passagem, com resolução de 512px. Também demonstramos a eficácia do treinamento conjunto de imagem e vídeo para prova de vídeo, especialmente quando os dados de vídeo são limitados. Nossos experimentos qualitativos e quantitativos mostram que nossa abordagem estabelece o novo estado da arte para prova virtual de vídeo. Para resultados adicionais, visite nossa página do projeto: https://johannakarras.github.io/Fashion-VDM.
English
We present Fashion-VDM, a video diffusion model (VDM) for generating virtual
try-on videos. Given an input garment image and person video, our method aims
to generate a high-quality try-on video of the person wearing the given
garment, while preserving the person's identity and motion. Image-based virtual
try-on has shown impressive results; however, existing video virtual try-on
(VVT) methods are still lacking garment details and temporal consistency. To
address these issues, we propose a diffusion-based architecture for video
virtual try-on, split classifier-free guidance for increased control over the
conditioning inputs, and a progressive temporal training strategy for
single-pass 64-frame, 512px video generation. We also demonstrate the
effectiveness of joint image-video training for video try-on, especially when
video data is limited. Our qualitative and quantitative experiments show that
our approach sets the new state-of-the-art for video virtual try-on. For
additional results, visit our project page:
https://johannakarras.github.io/Fashion-VDM.