ファッション-VDM: 仮想試着のためのビデオ拡散モデル
Fashion-VDM: Video Diffusion Model for Virtual Try-On
October 31, 2024
著者: Johanna Karras, Yingwei Li, Nan Liu, Luyang Zhu, Innfarn Yoo, Andreas Lugmayr, Chris Lee, Ira Kemelmacher-Shlizerman
cs.AI
要旨
私たちは、仮想試着動画を生成するためのビデオ拡散モデル(VDM)であるFashion-VDMを提案します。入力として与えられた衣類画像と人物ビデオに対し、当社の手法は、与えられた衣類を着用した人物の高品質な試着動画を生成することを目指しています。画像ベースの仮想試着は印象的な結果を示していますが、既存のビデオ仮想試着(VVT)手法は依然として衣類の詳細や時間的一貫性に欠けています。これらの問題に対処するために、ビデオ仮想試着のための拡散ベースのアーキテクチャ、条件付け入力をより細かく制御するための分類器フリーガイダンスの分割、および単一パス64フレーム、512pxビデオ生成のためのプログレッシブな時間的トレーニング戦略を提案します。また、ビデオ試着のための画像とビデオの共同トレーニングの効果を実証し、特にビデオデータが限られている場合に有効であることを示します。私たちの定性的および定量的実験は、当社のアプローチがビデオ仮想試着の新たな最先端を示していることを示しています。追加の結果については、プロジェクトページをご覧ください:https://johannakarras.github.io/Fashion-VDM。
English
We present Fashion-VDM, a video diffusion model (VDM) for generating virtual
try-on videos. Given an input garment image and person video, our method aims
to generate a high-quality try-on video of the person wearing the given
garment, while preserving the person's identity and motion. Image-based virtual
try-on has shown impressive results; however, existing video virtual try-on
(VVT) methods are still lacking garment details and temporal consistency. To
address these issues, we propose a diffusion-based architecture for video
virtual try-on, split classifier-free guidance for increased control over the
conditioning inputs, and a progressive temporal training strategy for
single-pass 64-frame, 512px video generation. We also demonstrate the
effectiveness of joint image-video training for video try-on, especially when
video data is limited. Our qualitative and quantitative experiments show that
our approach sets the new state-of-the-art for video virtual try-on. For
additional results, visit our project page:
https://johannakarras.github.io/Fashion-VDM.Summary
AI-Generated Summary