ChatPaper.aiChatPaper

OOTDiffusion: 制御可能な仮想試着のためのアウトフィッティング融合型潜在拡散モデル

OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable Virtual Try-on

March 4, 2024
著者: Yuhao Xu, Tao Gu, Weifeng Chen, Chengcai Chen
cs.AI

要旨

画像ベースのバーチャルトライオン(VTON)は、ショップ内の衣類を着用したターゲット人物の画像を生成することを目的としており、着用した人物の高忠実度だけでなく、衣類のディテールを完全に保持することを要求する、挑戦的な画像合成タスクです。この問題に取り組むため、我々は事前学習された潜在拡散モデルの力を活用し、現実的で制御可能なバーチャルトライオンのための新しいネットワークアーキテクチャを設計したOutfitting over Try-on Diffusion(OOTDiffusion)を提案します。明示的なワーピングプロセスなしに、我々は衣類のディテール特徴を学習するためのアウトフィッティングUNetを提案し、拡散モデルのノイズ除去プロセスにおいて、提案されたアウトフィッティング融合を通じてそれらをターゲット人物の身体と統合します。アウトフィッティングUNetの制御性をさらに向上させるため、トレーニングプロセスにアウトフィッティングドロップアウトを導入し、分類器なしガイダンスを通じて衣類特徴の強度を調整できるようにします。VITON-HDおよびDress Codeデータセットでの包括的な実験により、OOTDiffusionが任意の人物および衣類画像に対して高品質なアウトフィッティング画像を効率的に生成し、忠実度と制御性の両方において他のVTON手法を上回ることを示し、バーチャルトライオンにおける印象的なブレークスルーを示しています。ソースコードはhttps://github.com/levihsu/OOTDiffusionで公開されています。
English
Image-based virtual try-on (VTON), which aims to generate an outfitted image of a target human wearing an in-shop garment, is a challenging image-synthesis task calling for not only high fidelity of the outfitted human but also full preservation of garment details. To tackle this issue, we propose Outfitting over Try-on Diffusion (OOTDiffusion), leveraging the power of pretrained latent diffusion models and designing a novel network architecture for realistic and controllable virtual try-on. Without an explicit warping process, we propose an outfitting UNet to learn the garment detail features, and merge them with the target human body via our proposed outfitting fusion in the denoising process of diffusion models. In order to further enhance the controllability of our outfitting UNet, we introduce outfitting dropout to the training process, which enables us to adjust the strength of garment features through classifier-free guidance. Our comprehensive experiments on the VITON-HD and Dress Code datasets demonstrate that OOTDiffusion efficiently generates high-quality outfitted images for arbitrary human and garment images, which outperforms other VTON methods in both fidelity and controllability, indicating an impressive breakthrough in virtual try-on. Our source code is available at https://github.com/levihsu/OOTDiffusion.
PDF312December 15, 2024