OOTDiffusion: 제어 가능한 가상 피팅을 위한 아웃핏팅 융합 기반 잠재 확산 모델
OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable Virtual Try-on
March 4, 2024
저자: Yuhao Xu, Tao Gu, Weifeng Chen, Chengcai Chen
cs.AI
초록
이미지 기반 가상 피팅(VTON)은 매장 내 의류를 입은 대상 인물의 착용 이미지를 생성하는 것을 목표로 하는 도전적인 이미지 합성 작업으로, 단순히 높은 충실도의 착용 인물 이미지를 요구할 뿐만 아니라 의류 디테일의 완전한 보존도 필요로 합니다. 이 문제를 해결하기 위해, 우리는 사전 학습된 잠재 확산 모델의 힘을 활용하고 현실적이며 제어 가능한 가상 피팅을 위한 새로운 네트워크 아키텍처를 설계한 Outfitting over Try-on Diffusion(OOTDiffusion)을 제안합니다. 명시적인 워핑 과정 없이, 우리는 의류 디테일 특징을 학습하기 위한 outfitting UNet을 제안하고, 이를 확산 모델의 노이즈 제거 과정에서 제안된 outfitting fusion을 통해 대상 인물의 신체와 병합합니다. 우리의 outfitting UNet의 제어 가능성을 더욱 강화하기 위해, 우리는 훈련 과정에 outfitting dropout을 도입하여, 분류기 없는 가이던스를 통해 의류 특징의 강도를 조정할 수 있게 합니다. VITON-HD와 Dress Code 데이터셋에 대한 포괄적인 실험을 통해, OOTDiffusion이 임의의 인물과 의류 이미지에 대해 고품질의 착용 이미지를 효율적으로 생성하며, 충실도와 제어 가능성 모두에서 다른 VTON 방법들을 능가함을 보여주어, 가상 피팅 분야에서 인상적인 돌파구를 마련했습니다. 우리의 소스 코드는 https://github.com/levihsu/OOTDiffusion에서 확인할 수 있습니다.
English
Image-based virtual try-on (VTON), which aims to generate an outfitted image
of a target human wearing an in-shop garment, is a challenging image-synthesis
task calling for not only high fidelity of the outfitted human but also full
preservation of garment details. To tackle this issue, we propose Outfitting
over Try-on Diffusion (OOTDiffusion), leveraging the power of pretrained latent
diffusion models and designing a novel network architecture for realistic and
controllable virtual try-on. Without an explicit warping process, we propose an
outfitting UNet to learn the garment detail features, and merge them with the
target human body via our proposed outfitting fusion in the denoising process
of diffusion models. In order to further enhance the controllability of our
outfitting UNet, we introduce outfitting dropout to the training process, which
enables us to adjust the strength of garment features through classifier-free
guidance. Our comprehensive experiments on the VITON-HD and Dress Code datasets
demonstrate that OOTDiffusion efficiently generates high-quality outfitted
images for arbitrary human and garment images, which outperforms other VTON
methods in both fidelity and controllability, indicating an impressive
breakthrough in virtual try-on. Our source code is available at
https://github.com/levihsu/OOTDiffusion.