ChatPaper.aiChatPaper

Модель видеораспространения Fashion-VDM для виртуальной примерки.

Fashion-VDM: Video Diffusion Model for Virtual Try-On

October 31, 2024
Авторы: Johanna Karras, Yingwei Li, Nan Liu, Luyang Zhu, Innfarn Yoo, Andreas Lugmayr, Chris Lee, Ira Kemelmacher-Shlizerman
cs.AI

Аннотация

Мы представляем Fashion-VDM, модель видеодиффузии (VDM) для создания виртуальных видеороликов примерки. Учитывая входное изображение одежды и видео человека, наш метод направлен на создание видеоролика примерки высокого качества, на котором человек носит предоставленную одежду, сохраняя при этом его личность и движение. Виртуальная примерка на основе изображений показала впечатляющие результаты; однако существующим методам видеовиртуальной примерки (VVT) все еще не хватает деталей одежды и временной последовательности. Для решения этих проблем мы предлагаем архитектуру на основе диффузии для видеовиртуальной примерки, разделенное руководство без классификатора для увеличения контроля над входными данными, и прогрессивную стратегию обучения по времени для генерации видео однопроходным способом на 64 кадра, 512 пикселей. Мы также демонстрируем эффективность совместного обучения изображений и видео для видеопримерки, особенно когда видеоданные ограничены. Наши качественные и количественные эксперименты показывают, что наш подход устанавливает новый уровень качества для видеовиртуальной примерки. Дополнительные результаты доступны на нашей странице проекта: https://johannakarras.github.io/Fashion-VDM.
English
We present Fashion-VDM, a video diffusion model (VDM) for generating virtual try-on videos. Given an input garment image and person video, our method aims to generate a high-quality try-on video of the person wearing the given garment, while preserving the person's identity and motion. Image-based virtual try-on has shown impressive results; however, existing video virtual try-on (VVT) methods are still lacking garment details and temporal consistency. To address these issues, we propose a diffusion-based architecture for video virtual try-on, split classifier-free guidance for increased control over the conditioning inputs, and a progressive temporal training strategy for single-pass 64-frame, 512px video generation. We also demonstrate the effectiveness of joint image-video training for video try-on, especially when video data is limited. Our qualitative and quantitative experiments show that our approach sets the new state-of-the-art for video virtual try-on. For additional results, visit our project page: https://johannakarras.github.io/Fashion-VDM.

Summary

AI-Generated Summary

PDF112November 13, 2024