ChatPaper.aiChatPaper

IMAGDressing-v1 : Habillage virtuel personnalisable

IMAGDressing-v1: Customizable Virtual Dressing

July 17, 2024
Auteurs: Fei Shen, Xin Jiang, Xin He, Hu Ye, Cong Wang, Xiaoyu Du, Zechao Li, Jinghui Tang
cs.AI

Résumé

Les dernières avancées ont permis d'atteindre un essai virtuel (VTON) réaliste grâce à la réparation localisée de vêtements utilisant des modèles de diffusion latente, améliorant ainsi significativement l'expérience d'achat en ligne des consommateurs. Cependant, les technologies VTON existantes négligent le besoin des marchands de présenter les vêtements de manière exhaustive, incluant un contrôle flexible sur les vêtements, les visages optionnels, les poses et les scènes. Pour résoudre ce problème, nous définissons une tâche d'habillage virtuel (VD) axée sur la génération d'images humaines librement modifiables avec des vêtements fixes et des conditions optionnelles. Parallèlement, nous concevons un indice métrique d'affinité complet (CAMI) pour évaluer la cohérence entre les images générées et les vêtements de référence. Ensuite, nous proposons IMAGDressing-v1, qui intègre un UNet de vêtement capturant les caractéristiques sémantiques de CLIP et les caractéristiques de texture de VAE. Nous présentons un module d'attention hybride, incluant une auto-attention gelée et une attention croisée entraînable, pour intégrer les caractéristiques des vêtements de l'UNet de vêtement dans un UNet de débruiteur gelé, garantissant que les utilisateurs peuvent contrôler différentes scènes via du texte. IMAGDressing-v1 peut être combiné avec d'autres plugins d'extension, tels que ControlNet et IP-Adapter, pour améliorer la diversité et la contrôlabilité des images générées. De plus, pour pallier le manque de données, nous publions le jeu de données d'appariement interactif de vêtements (IGPair), contenant plus de 300 000 paires d'images de vêtements et de personnes habillées, et établissons un pipeline standard pour l'assemblage des données. Des expériences approfondies démontrent que notre IMAGDressing-v1 atteint des performances de pointe en synthèse d'images humaines sous diverses conditions contrôlées. Le code et le modèle seront disponibles à l'adresse https://github.com/muzishen/IMAGDressing.
English
Latest advances have achieved realistic virtual try-on (VTON) through localized garment inpainting using latent diffusion models, significantly enhancing consumers' online shopping experience. However, existing VTON technologies neglect the need for merchants to showcase garments comprehensively, including flexible control over garments, optional faces, poses, and scenes. To address this issue, we define a virtual dressing (VD) task focused on generating freely editable human images with fixed garments and optional conditions. Meanwhile, we design a comprehensive affinity metric index (CAMI) to evaluate the consistency between generated images and reference garments. Then, we propose IMAGDressing-v1, which incorporates a garment UNet that captures semantic features from CLIP and texture features from VAE. We present a hybrid attention module, including a frozen self-attention and a trainable cross-attention, to integrate garment features from the garment UNet into a frozen denoising UNet, ensuring users can control different scenes through text. IMAGDressing-v1 can be combined with other extension plugins, such as ControlNet and IP-Adapter, to enhance the diversity and controllability of generated images. Furthermore, to address the lack of data, we release the interactive garment pairing (IGPair) dataset, containing over 300,000 pairs of clothing and dressed images, and establish a standard pipeline for data assembly. Extensive experiments demonstrate that our IMAGDressing-v1 achieves state-of-the-art human image synthesis performance under various controlled conditions. The code and model will be available at https://github.com/muzishen/IMAGDressing.

Summary

AI-Generated Summary

PDF132November 28, 2024