IMAGDressing-v1: Настраиваемый виртуальный примерочный.
IMAGDressing-v1: Customizable Virtual Dressing
July 17, 2024
Авторы: Fei Shen, Xin Jiang, Xin He, Hu Ye, Cong Wang, Xiaoyu Du, Zechao Li, Jinghui Tang
cs.AI
Аннотация
Современные достижения позволили достичь реалистичной виртуальной примерки одежды (VTON) через локализованное восстановление пропавших участков одежды с использованием моделей латентного диффузии, значительно улучшая онлайн-покупательский опыт потребителей. Однако существующие технологии VTON не учитывают потребность торговцев в полном представлении одежды, включая гибкий контроль над одеждой, опциональные лица, позы и сцены. Для решения этой проблемы мы определяем задачу виртуального облачения (VD), сосредоточенную на создании свободно редактируемых изображений людей с фиксированной одеждой и опциональными условиями. Также мы разрабатываем комплексный индекс метрики сходства (CAMI) для оценки согласованности между созданными изображениями и эталонной одеждой. Затем мы предлагаем IMAGDressing-v1, который включает в себя сеть UNet для одежды, захватывающую семантические особенности из CLIP и текстурные особенности из VAE. Мы представляем гибридный модуль внимания, включающий замороженное самовнимание и обучаемое кросс-внимание, для интеграции особенностей одежды из сети UNet для одежды в замороженную сеть UNet для устранения шума, обеспечивая возможность пользователям контролировать различные сцены через текст. IMAGDressing-v1 может быть объединен с другими расширениями, такими как ControlNet и IP-Adapter, для улучшения разнообразия и управляемости созданных изображений. Кроме того, для решения недостатка данных, мы выпускаем интерактивный набор данных пар одежды (IGPair), содержащий более 300 000 пар одежды и одетых изображений, и устанавливаем стандартный конвейер для сборки данных. Обширные эксперименты демонстрируют, что наш IMAGDressing-v1 достигает передового уровня производительности синтеза изображений людей в различных контролируемых условиях. Код и модель будут доступны по адресу https://github.com/muzishen/IMAGDressing.
English
Latest advances have achieved realistic virtual try-on (VTON) through
localized garment inpainting using latent diffusion models, significantly
enhancing consumers' online shopping experience. However, existing VTON
technologies neglect the need for merchants to showcase garments
comprehensively, including flexible control over garments, optional faces,
poses, and scenes. To address this issue, we define a virtual dressing (VD)
task focused on generating freely editable human images with fixed garments and
optional conditions. Meanwhile, we design a comprehensive affinity metric index
(CAMI) to evaluate the consistency between generated images and reference
garments. Then, we propose IMAGDressing-v1, which incorporates a garment UNet
that captures semantic features from CLIP and texture features from VAE. We
present a hybrid attention module, including a frozen self-attention and a
trainable cross-attention, to integrate garment features from the garment UNet
into a frozen denoising UNet, ensuring users can control different scenes
through text. IMAGDressing-v1 can be combined with other extension plugins,
such as ControlNet and IP-Adapter, to enhance the diversity and controllability
of generated images. Furthermore, to address the lack of data, we release the
interactive garment pairing (IGPair) dataset, containing over 300,000 pairs of
clothing and dressed images, and establish a standard pipeline for data
assembly. Extensive experiments demonstrate that our IMAGDressing-v1 achieves
state-of-the-art human image synthesis performance under various controlled
conditions. The code and model will be available at
https://github.com/muzishen/IMAGDressing.Summary
AI-Generated Summary