ChatPaper.aiChatPaper

3DV-TON: 拡散モデルによるテクスチャ付き3Dガイドを用いた一貫性のあるビデオ試着

3DV-TON: Textured 3D-Guided Consistent Video Try-on via Diffusion Models

April 24, 2025
著者: Min Wei, Chaohui Yu, Jingkai Zhou, Fan Wang
cs.AI

要旨

ビデオ試着は、動画内の衣服をターゲットの衣装に置き換える技術です。既存の手法では、複雑な衣服のパターンや多様な身体のポーズを扱う際に、高品質で時間的に一貫した結果を生成することが困難でした。本論文では、高忠実度かつ時間的に一貫したビデオ試着結果を生成するための新しい拡散ベースのフレームワークである3DV-TONを提案します。私たちのアプローチでは、生成されたアニメーション可能なテクスチャ付き3Dメッシュを明示的なフレームレベルガイダンスとして利用し、モデルが動きの一貫性を犠牲にして外観の忠実度に過度に集中する問題を軽減します。これは、ビデオシーケンス全体で一貫した衣服のテクスチャの動きを直接参照できるようにすることで実現されます。提案手法は、動的な3Dガイダンスを生成するための適応型パイプラインを特徴としています:(1) 初期の2D画像試着のためのキーフレームを選択し、(2) 元のビデオのポーズと同期したテクスチャ付き3Dメッシュを再構築およびアニメーション化します。さらに、動的な人体と衣服の動きによる衣服情報の漏洩が引き起こすアーティファクトの伝播を効果的に軽減する堅牢な矩形マスキング戦略を導入します。ビデオ試着研究を進めるために、多様な衣服タイプとシナリオを含む130のビデオからなる高解像度ベンチマークデータセットHR-VVTを紹介します。定量的および定性的な結果は、既存の手法に対する私たちの優れた性能を示しています。プロジェクトページは以下のリンクにあります https://2y7c3.github.io/3DV-TON/
English
Video try-on replaces clothing in videos with target garments. Existing methods struggle to generate high-quality and temporally consistent results when handling complex clothing patterns and diverse body poses. We present 3DV-TON, a novel diffusion-based framework for generating high-fidelity and temporally consistent video try-on results. Our approach employs generated animatable textured 3D meshes as explicit frame-level guidance, alleviating the issue of models over-focusing on appearance fidelity at the expanse of motion coherence. This is achieved by enabling direct reference to consistent garment texture movements throughout video sequences. The proposed method features an adaptive pipeline for generating dynamic 3D guidance: (1) selecting a keyframe for initial 2D image try-on, followed by (2) reconstructing and animating a textured 3D mesh synchronized with original video poses. We further introduce a robust rectangular masking strategy that successfully mitigates artifact propagation caused by leaking clothing information during dynamic human and garment movements. To advance video try-on research, we introduce HR-VVT, a high-resolution benchmark dataset containing 130 videos with diverse clothing types and scenarios. Quantitative and qualitative results demonstrate our superior performance over existing methods. The project page is at this link https://2y7c3.github.io/3DV-TON/

Summary

AI-Generated Summary

PDF102April 25, 2025