ChatPaper.aiChatPaper

IMAGDressing-v1: Vestidor Virtual Personalizable

IMAGDressing-v1: Customizable Virtual Dressing

July 17, 2024
Autores: Fei Shen, Xin Jiang, Xin He, Hu Ye, Cong Wang, Xiaoyu Du, Zechao Li, Jinghui Tang
cs.AI

Resumen

Los últimos avances han logrado un realista probador virtual (VTON) a través del relleno localizado de prendas utilizando modelos de difusión latente, mejorando significativamente la experiencia de compra en línea de los consumidores. Sin embargo, las tecnologías VTON existentes descuidan la necesidad de que los comerciantes muestren prendas de manera integral, incluyendo un control flexible sobre las prendas, rostros opcionales, poses y escenarios. Para abordar este problema, definimos una tarea de vestimenta virtual (VD) centrada en generar imágenes humanas libremente editables con prendas fijas y condiciones opcionales. Al mismo tiempo, diseñamos un índice métrico de afinidad integral (CAMI) para evaluar la consistencia entre las imágenes generadas y las prendas de referencia. Luego, proponemos IMAGDressing-v1, que incorpora un UNet de prendas que captura características semánticas de CLIP y características de textura de VAE. Presentamos un módulo de atención híbrido, que incluye una autoatención congelada y una atención cruzada entrenable, para integrar las características de las prendas del UNet de prendas en un UNet de desenfoque congelado, asegurando que los usuarios puedan controlar diferentes escenarios a través de texto. IMAGDressing-v1 puede combinarse con otros complementos de extensión, como ControlNet e IP-Adapter, para mejorar la diversidad y la controlabilidad de las imágenes generadas. Además, para abordar la falta de datos, lanzamos el conjunto de datos de emparejamiento interactivo de prendas (IGPair), que contiene más de 300,000 pares de prendas e imágenes vestidas, y establecemos un flujo de trabajo estándar para la recopilación de datos. Experimentos extensos demuestran que nuestro IMAGDressing-v1 logra un rendimiento de síntesis de imágenes humanas de vanguardia bajo diversas condiciones controladas. El código y el modelo estarán disponibles en https://github.com/muzishen/IMAGDressing.
English
Latest advances have achieved realistic virtual try-on (VTON) through localized garment inpainting using latent diffusion models, significantly enhancing consumers' online shopping experience. However, existing VTON technologies neglect the need for merchants to showcase garments comprehensively, including flexible control over garments, optional faces, poses, and scenes. To address this issue, we define a virtual dressing (VD) task focused on generating freely editable human images with fixed garments and optional conditions. Meanwhile, we design a comprehensive affinity metric index (CAMI) to evaluate the consistency between generated images and reference garments. Then, we propose IMAGDressing-v1, which incorporates a garment UNet that captures semantic features from CLIP and texture features from VAE. We present a hybrid attention module, including a frozen self-attention and a trainable cross-attention, to integrate garment features from the garment UNet into a frozen denoising UNet, ensuring users can control different scenes through text. IMAGDressing-v1 can be combined with other extension plugins, such as ControlNet and IP-Adapter, to enhance the diversity and controllability of generated images. Furthermore, to address the lack of data, we release the interactive garment pairing (IGPair) dataset, containing over 300,000 pairs of clothing and dressed images, and establish a standard pipeline for data assembly. Extensive experiments demonstrate that our IMAGDressing-v1 achieves state-of-the-art human image synthesis performance under various controlled conditions. The code and model will be available at https://github.com/muzishen/IMAGDressing.

Summary

AI-Generated Summary

PDF132November 28, 2024