CatV2TON: 拡散トランスフォーマーを視覚ベースのバーチャル試着において、時間的連結と共に制御する
CatV2TON: Taming Diffusion Transformers for Vision-Based Virtual Try-On with Temporal Concatenation
January 20, 2025
著者: Zheng Chong, Wenqing Zhang, Shiyue Zhang, Jun Zheng, Xiao Dong, Haoxiang Li, Yiling Wu, Dongmei Jiang, Xiaodan Liang
cs.AI
要旨
バーチャル試着(VTON)技術は、画像や動画のリアルな衣服の視覚化を可能にすることで、オンライン小売業を変革する潜在能力から注目を集めています。しかし、既存の多くの手法は、特に長い動画シナリオにおいて、画像や動画の試着タスクで高品質な結果を達成するのに苦労しています。本研究では、CatV2TONという、単一の拡散トランスフォーマーモデルを用いて画像と動画の試着タスクの両方をサポートする、シンプルで効果的なビジョンベースのバーチャル試着(V2TON)手法を紹介します。衣服と人物の入力を時間的に連結し、画像と動画のデータセットの混合でトレーニングすることにより、CatV2TONは静的および動的な環境で堅牢な試着パフォーマンスを実現します。効率的な長い動画生成のために、連続フレームガイダンスと適応的クリップ正規化(AdaCN)を使用した、時間的一貫性を維持しつつリソース要求を削減するオーバーラップクリップベースの推論戦略を提案します。また、向きを変えたフレームのフィルタリングと3Dマスクのスムージングを適用することで、強化された時間的一貫性を実現した、洗練された動画試着データセットであるViViD-Sを提示します。包括的な実験により、CatV2TONが画像と動画の試着タスクの両方で既存の手法を上回り、多様なシナリオでリアルなバーチャル試着のための汎用かつ信頼性の高いソリューションを提供していることが示されます。
English
Virtual try-on (VTON) technology has gained attention due to its potential to
transform online retail by enabling realistic clothing visualization of images
and videos. However, most existing methods struggle to achieve high-quality
results across image and video try-on tasks, especially in long video
scenarios. In this work, we introduce CatV2TON, a simple and effective
vision-based virtual try-on (V2TON) method that supports both image and video
try-on tasks with a single diffusion transformer model. By temporally
concatenating garment and person inputs and training on a mix of image and
video datasets, CatV2TON achieves robust try-on performance across static and
dynamic settings. For efficient long-video generation, we propose an
overlapping clip-based inference strategy that uses sequential frame guidance
and Adaptive Clip Normalization (AdaCN) to maintain temporal consistency with
reduced resource demands. We also present ViViD-S, a refined video try-on
dataset, achieved by filtering back-facing frames and applying 3D mask
smoothing for enhanced temporal consistency. Comprehensive experiments
demonstrate that CatV2TON outperforms existing methods in both image and video
try-on tasks, offering a versatile and reliable solution for realistic virtual
try-ons across diverse scenarios.Summary
AI-Generated Summary