ChatPaper.aiChatPaper

IMAGDressing-v1: Abbigliamento Virtuale Personalizzabile

IMAGDressing-v1: Customizable Virtual Dressing

July 17, 2024
Autori: Fei Shen, Xin Jiang, Xin He, Hu Ye, Cong Wang, Xiaoyu Du, Zechao Li, Jinghui Tang
cs.AI

Abstract

I più recenti progressi hanno raggiunto un virtual try-on (VTON) realistico attraverso il completamento localizzato degli indumenti utilizzando modelli di diffusione latente, migliorando significativamente l'esperienza di acquisto online dei consumatori. Tuttavia, le attuali tecnologie VTON trascurano la necessità per i commercianti di mostrare gli indumenti in modo completo, includendo un controllo flessibile sugli abiti, volti opzionali, pose e scene. Per affrontare questo problema, definiamo un compito di virtual dressing (VD) focalizzato sulla generazione di immagini umane liberamente modificabili con indumenti fissi e condizioni opzionali. Nel frattempo, progettiamo un indice metrico di affinità completo (CAMI) per valutare la coerenza tra le immagini generate e gli indumenti di riferimento. Successivamente, proponiamo IMAGDressing-v1, che incorpora un garment UNet in grado di catturare caratteristiche semantiche da CLIP e caratteristiche di texture da VAE. Presentiamo un modulo di attenzione ibrida, che include un self-attention congelato e un cross-attention addestrabile, per integrare le caratteristiche degli indumenti dal garment UNet in un denoising UNet congelato, garantendo che gli utenti possano controllare diverse scene attraverso il testo. IMAGDressing-v1 può essere combinato con altri plugin di estensione, come ControlNet e IP-Adapter, per migliorare la diversità e la controllabilità delle immagini generate. Inoltre, per affrontare la mancanza di dati, rilasciamo il dataset interactive garment pairing (IGPair), contenente oltre 300.000 coppie di immagini di abiti e persone vestite, e stabiliamo una pipeline standard per l'assemblaggio dei dati. Esperimenti estensivi dimostrano che il nostro IMAGDressing-v1 raggiunge prestazioni all'avanguardia nella sintesi di immagini umane sotto varie condizioni controllate. Il codice e il modello saranno disponibili su https://github.com/muzishen/IMAGDressing.
English
Latest advances have achieved realistic virtual try-on (VTON) through localized garment inpainting using latent diffusion models, significantly enhancing consumers' online shopping experience. However, existing VTON technologies neglect the need for merchants to showcase garments comprehensively, including flexible control over garments, optional faces, poses, and scenes. To address this issue, we define a virtual dressing (VD) task focused on generating freely editable human images with fixed garments and optional conditions. Meanwhile, we design a comprehensive affinity metric index (CAMI) to evaluate the consistency between generated images and reference garments. Then, we propose IMAGDressing-v1, which incorporates a garment UNet that captures semantic features from CLIP and texture features from VAE. We present a hybrid attention module, including a frozen self-attention and a trainable cross-attention, to integrate garment features from the garment UNet into a frozen denoising UNet, ensuring users can control different scenes through text. IMAGDressing-v1 can be combined with other extension plugins, such as ControlNet and IP-Adapter, to enhance the diversity and controllability of generated images. Furthermore, to address the lack of data, we release the interactive garment pairing (IGPair) dataset, containing over 300,000 pairs of clothing and dressed images, and establish a standard pipeline for data assembly. Extensive experiments demonstrate that our IMAGDressing-v1 achieves state-of-the-art human image synthesis performance under various controlled conditions. The code and model will be available at https://github.com/muzishen/IMAGDressing.
PDF132November 28, 2024