ChatPaper.aiChatPaper

DreamVVT:段階的拡散トランスフォレーマーフレームワークによる実世界でのリアルなビデオ仮想試着のマスタリング

DreamVVT: Mastering Realistic Video Virtual Try-On in the Wild via a Stage-Wise Diffusion Transformer Framework

August 4, 2025
著者: Tongchun Zuo, Zaiyu Huang, Shuliang Ning, Ente Lin, Chao Liang, Zerong Zheng, Jianwen Jiang, Yuan Zhang, Mingyuan Gao, Xin Dong
cs.AI

要旨

ビデオ仮想試着(VVT)技術は、eコマース広告やエンターテイメント分野での有望な応用可能性から、学術的に大きな注目を集めている。しかし、既存のエンドツーエンド手法の多くは、限られたペア型の衣料品中心データセットに依存しており、高度な視覚モデルやテスト時入力の事前情報を効果的に活用できていない。そのため、制約のないシナリオにおいて、細かな衣料品のディテールを正確に保持し、時間的な一貫性を維持することが困難となっている。これらの課題に対処するため、我々はDiffusion Transformers(DiTs)を基盤とした2段階のフレームワークであるDreamVVTを提案する。このフレームワークは、多様な非ペア型の人間中心データを活用して現実世界のシナリオにおける適応性を向上させる能力を本質的に備えている。さらに、事前学習済みモデルやテスト時入力からの事前知識を活用するため、第1段階では、入力ビデオから代表フレームをサンプリングし、視覚言語モデル(VLM)と統合されたマルチフレーム試着モデルを使用して、高忠実度かつ意味的に一貫したキーフレーム試着画像を生成する。これらの画像は、後続のビデオ生成のための補完的な外観ガイダンスとして機能する。第2段階では、入力コンテンツから骨格マップと細かな動きおよび外観の記述を抽出し、これらをキーフレーム試着画像とともに、LoRAアダプターで強化された事前学習済みビデオ生成モデルに入力する。これにより、未見領域に対する長期的な時間的整合性が確保され、非常に説得力のある動的モーションが実現される。定量的および定性的な実験結果は、DreamVVTが現実世界のシナリオにおいて、詳細な衣料品コンテンツの保持と時間的安定性の点で既存手法を凌駕することを示している。プロジェクトページはhttps://virtu-lab.github.io/にて公開中である。
English
Video virtual try-on (VVT) technology has garnered considerable academic interest owing to its promising applications in e-commerce advertising and entertainment. However, most existing end-to-end methods rely heavily on scarce paired garment-centric datasets and fail to effectively leverage priors of advanced visual models and test-time inputs, making it challenging to accurately preserve fine-grained garment details and maintain temporal consistency in unconstrained scenarios. To address these challenges, we propose DreamVVT, a carefully designed two-stage framework built upon Diffusion Transformers (DiTs), which is inherently capable of leveraging diverse unpaired human-centric data to enhance adaptability in real-world scenarios. To further leverage prior knowledge from pretrained models and test-time inputs, in the first stage, we sample representative frames from the input video and utilize a multi-frame try-on model integrated with a vision-language model (VLM), to synthesize high-fidelity and semantically consistent keyframe try-on images. These images serve as complementary appearance guidance for subsequent video generation. In the second stage, skeleton maps together with fine-grained motion and appearance descriptions are extracted from the input content, and these along with the keyframe try-on images are then fed into a pretrained video generation model enhanced with LoRA adapters. This ensures long-term temporal coherence for unseen regions and enables highly plausible dynamic motions. Extensive quantitative and qualitative experiments demonstrate that DreamVVT surpasses existing methods in preserving detailed garment content and temporal stability in real-world scenarios. Our project page https://virtu-lab.github.io/
PDF132August 7, 2025