ChatPaper.aiChatPaper

IMAGDressing-v1: 맞춤형 가상 의상 체험

IMAGDressing-v1: Customizable Virtual Dressing

July 17, 2024
저자: Fei Shen, Xin Jiang, Xin He, Hu Ye, Cong Wang, Xiaoyu Du, Zechao Li, Jinghui Tang
cs.AI

초록

최근의 발전은 잠재 확산 모델을 활용한 지역적 의상 인페인팅을 통해 현실적인 가상 피팅(VTON)을 달성함으로써 소비자의 온라인 쇼핑 경험을 크게 향상시켰습니다. 그러나 기존의 VTON 기술은 의상을 포괄적으로 전시해야 하는 판매자의 요구, 즉 의상에 대한 유연한 제어, 선택적 얼굴, 포즈 및 장면 등을 간과하고 있습니다. 이 문제를 해결하기 위해, 우리는 고정된 의상과 선택적 조건을 가진 자유롭게 편집 가능한 인간 이미지를 생성하는 데 초점을 맞춘 가상 드레싱(VD) 작업을 정의합니다. 동시에, 생성된 이미지와 참조 의상 간의 일관성을 평가하기 위한 포괄적 친화성 지표(CAMI)를 설계합니다. 그런 다음, CLIP에서 의미론적 특징을 캡처하고 VAE에서 텍스처 특징을 추출하는 의상 UNet을 통합한 IMAGDressing-v1을 제안합니다. 우리는 고정된 자기 주의 모듈과 학습 가능한 교차 주의 모듈을 포함한 하이브리드 주의 모듈을 제시하여, 의상 UNet에서 추출한 의상 특징을 고정된 디노이징 UNet에 통합함으로써 사용자가 텍스트를 통해 다양한 장면을 제어할 수 있도록 합니다. IMAGDressing-v1은 ControlNet 및 IP-Adapter와 같은 확장 플러그인과 결합하여 생성된 이미지의 다양성과 제어 가능성을 향상시킬 수 있습니다. 또한, 데이터 부족 문제를 해결하기 위해 30만 쌍 이상의 의상과 착용 이미지를 포함한 인터랙티브 의상 페어링(IGPair) 데이터셋을 공개하고 데이터 조립을 위한 표준 파이프라인을 구축합니다. 광범위한 실험을 통해 우리의 IMAGDressing-v1이 다양한 제어 조건 하에서 최첨단 인간 이미지 합성 성능을 달성함을 입증합니다. 코드와 모델은 https://github.com/muzishen/IMAGDressing에서 확인할 수 있습니다.
English
Latest advances have achieved realistic virtual try-on (VTON) through localized garment inpainting using latent diffusion models, significantly enhancing consumers' online shopping experience. However, existing VTON technologies neglect the need for merchants to showcase garments comprehensively, including flexible control over garments, optional faces, poses, and scenes. To address this issue, we define a virtual dressing (VD) task focused on generating freely editable human images with fixed garments and optional conditions. Meanwhile, we design a comprehensive affinity metric index (CAMI) to evaluate the consistency between generated images and reference garments. Then, we propose IMAGDressing-v1, which incorporates a garment UNet that captures semantic features from CLIP and texture features from VAE. We present a hybrid attention module, including a frozen self-attention and a trainable cross-attention, to integrate garment features from the garment UNet into a frozen denoising UNet, ensuring users can control different scenes through text. IMAGDressing-v1 can be combined with other extension plugins, such as ControlNet and IP-Adapter, to enhance the diversity and controllability of generated images. Furthermore, to address the lack of data, we release the interactive garment pairing (IGPair) dataset, containing over 300,000 pairs of clothing and dressed images, and establish a standard pipeline for data assembly. Extensive experiments demonstrate that our IMAGDressing-v1 achieves state-of-the-art human image synthesis performance under various controlled conditions. The code and model will be available at https://github.com/muzishen/IMAGDressing.

Summary

AI-Generated Summary

PDF132November 28, 2024