IMAGDressing-v1: Aanpasbaar Virtueel Aankleden
IMAGDressing-v1: Customizable Virtual Dressing
July 17, 2024
Auteurs: Fei Shen, Xin Jiang, Xin He, Hu Ye, Cong Wang, Xiaoyu Du, Zechao Li, Jinghui Tang
cs.AI
Samenvatting
De nieuwste ontwikkelingen hebben realistische virtuele passen (VTON) bereikt door middel van gelokaliseerde kledinginpainting met behulp van latente diffusiemodellen, wat de online winkelervaring van consumenten aanzienlijk verbetert. Bestaande VTON-technologieën negeren echter de behoefte van verkopers om kleding uitgebreid te presenteren, inclusief flexibele controle over kleding, optionele gezichten, poses en scènes. Om dit probleem aan te pakken, definiëren we een virtueel aankleden (VD) taak die gericht is op het genereren van vrij bewerkbare menselijke afbeeldingen met vaste kleding en optionele voorwaarden. Tegelijkertijd ontwerpen we een uitgebreide affiniteitsmetriekindex (CAMI) om de consistentie tussen gegenereerde afbeeldingen en referentiekleding te evalueren. Vervolgens stellen we IMAGDressing-v1 voor, dat een kleding-UNet bevat dat semantische kenmerken van CLIP en textuurkenmerken van VAE vastlegt. We introduceren een hybride aandachtmodule, bestaande uit een bevroren zelf-aandacht en een trainbare kruis-aandacht, om kledingkenmerken van het kleding-UNet te integreren in een bevroren denoiserings-UNet, waardoor gebruikers verschillende scènes kunnen controleren via tekst. IMAGDressing-v1 kan worden gecombineerd met andere uitbreidingsplugins, zoals ControlNet en IP-Adapter, om de diversiteit en beheersbaarheid van gegenereerde afbeeldingen te vergroten. Bovendien, om het gebrek aan data aan te pakken, brengen we de interactieve kledingparen (IGPair) dataset uit, die meer dan 300.000 paren van kleding en aangeklede afbeeldingen bevat, en stellen we een standaardpijplijn voor data-assemblage op. Uitgebreide experimenten tonen aan dat onze IMAGDressing-v1 state-of-the-art prestaties bereikt in menselijke afbeeldingssynthese onder verschillende gecontroleerde omstandigheden. De code en het model zullen beschikbaar zijn op https://github.com/muzishen/IMAGDressing.
English
Latest advances have achieved realistic virtual try-on (VTON) through
localized garment inpainting using latent diffusion models, significantly
enhancing consumers' online shopping experience. However, existing VTON
technologies neglect the need for merchants to showcase garments
comprehensively, including flexible control over garments, optional faces,
poses, and scenes. To address this issue, we define a virtual dressing (VD)
task focused on generating freely editable human images with fixed garments and
optional conditions. Meanwhile, we design a comprehensive affinity metric index
(CAMI) to evaluate the consistency between generated images and reference
garments. Then, we propose IMAGDressing-v1, which incorporates a garment UNet
that captures semantic features from CLIP and texture features from VAE. We
present a hybrid attention module, including a frozen self-attention and a
trainable cross-attention, to integrate garment features from the garment UNet
into a frozen denoising UNet, ensuring users can control different scenes
through text. IMAGDressing-v1 can be combined with other extension plugins,
such as ControlNet and IP-Adapter, to enhance the diversity and controllability
of generated images. Furthermore, to address the lack of data, we release the
interactive garment pairing (IGPair) dataset, containing over 300,000 pairs of
clothing and dressed images, and establish a standard pipeline for data
assembly. Extensive experiments demonstrate that our IMAGDressing-v1 achieves
state-of-the-art human image synthesis performance under various controlled
conditions. The code and model will be available at
https://github.com/muzishen/IMAGDressing.