ChatPaper.aiChatPaper

IMAGDressing-v1: Provador Virtual Personalizável

IMAGDressing-v1: Customizable Virtual Dressing

July 17, 2024
Autores: Fei Shen, Xin Jiang, Xin He, Hu Ye, Cong Wang, Xiaoyu Du, Zechao Li, Jinghui Tang
cs.AI

Resumo

Os avanços mais recentes alcançaram uma experimentação virtual realista (VTON) através do preenchimento localizado de vestuário usando modelos de difusão latente, melhorando significativamente a experiência de compras online dos consumidores. No entanto, as tecnologias VTON existentes negligenciam a necessidade de os comerciantes apresentarem os vestuários de forma abrangente, incluindo controle flexível sobre os vestuários, rostos opcionais, poses e cenários. Para abordar essa questão, definimos uma tarefa de vestimenta virtual (VD) focada em gerar imagens humanas livremente editáveis com vestuários fixos e condições opcionais. Enquanto isso, projetamos um índice abrangente de métrica de afinidade (CAMI) para avaliar a consistência entre as imagens geradas e os vestuários de referência. Em seguida, propomos o IMAGDressing-v1, que incorpora um UNet de vestuário que captura características semânticas do CLIP e características de textura do VAE. Apresentamos um módulo de atenção híbrido, incluindo uma autoatenção congelada e uma interatenção cruzada treinável, para integrar características de vestuário do UNet de vestuário em um UNet de desembaçamento congelado, garantindo que os usuários possam controlar diferentes cenários através de texto. O IMAGDressing-v1 pode ser combinado com outros plugins de extensão, como ControlNet e IP-Adapter, para melhorar a diversidade e controlabilidade das imagens geradas. Além disso, para lidar com a falta de dados, lançamos o conjunto de dados de emparelhamento de vestuário interativo (IGPair), contendo mais de 300.000 pares de roupas e imagens vestidas, e estabelecemos um pipeline padrão para montagem de dados. Experimentos extensivos demonstram que nosso IMAGDressing-v1 alcança desempenho de síntese de imagem humana de última geração sob várias condições controladas. O código e o modelo estarão disponíveis em https://github.com/muzishen/IMAGDressing.
English
Latest advances have achieved realistic virtual try-on (VTON) through localized garment inpainting using latent diffusion models, significantly enhancing consumers' online shopping experience. However, existing VTON technologies neglect the need for merchants to showcase garments comprehensively, including flexible control over garments, optional faces, poses, and scenes. To address this issue, we define a virtual dressing (VD) task focused on generating freely editable human images with fixed garments and optional conditions. Meanwhile, we design a comprehensive affinity metric index (CAMI) to evaluate the consistency between generated images and reference garments. Then, we propose IMAGDressing-v1, which incorporates a garment UNet that captures semantic features from CLIP and texture features from VAE. We present a hybrid attention module, including a frozen self-attention and a trainable cross-attention, to integrate garment features from the garment UNet into a frozen denoising UNet, ensuring users can control different scenes through text. IMAGDressing-v1 can be combined with other extension plugins, such as ControlNet and IP-Adapter, to enhance the diversity and controllability of generated images. Furthermore, to address the lack of data, we release the interactive garment pairing (IGPair) dataset, containing over 300,000 pairs of clothing and dressed images, and establish a standard pipeline for data assembly. Extensive experiments demonstrate that our IMAGDressing-v1 achieves state-of-the-art human image synthesis performance under various controlled conditions. The code and model will be available at https://github.com/muzishen/IMAGDressing.
PDF132November 28, 2024