IMAGDressing-v1: Настраиваемый виртуальный примерочный.

Аннотация

Современные достижения позволили достичь реалистичной виртуальной примерки одежды (VTON) через локализованное восстановление пропавших участков одежды с использованием моделей латентного диффузии, значительно улучшая онлайн-покупательский опыт потребителей. Однако существующие технологии VTON не учитывают потребность торговцев в полном представлении одежды, включая гибкий контроль над одеждой, опциональные лица, позы и сцены. Для решения этой проблемы мы определяем задачу виртуального облачения (VD), сосредоточенную на создании свободно редактируемых изображений людей с фиксированной одеждой и опциональными условиями. Также мы разрабатываем комплексный индекс метрики сходства (CAMI) для оценки согласованности между созданными изображениями и эталонной одеждой. Затем мы предлагаем IMAGDressing-v1, который включает в себя сеть UNet для одежды, захватывающую семантические особенности из CLIP и текстурные особенности из VAE. Мы представляем гибридный модуль внимания, включающий замороженное самовнимание и обучаемое кросс-внимание, для интеграции особенностей одежды из сети UNet для одежды в замороженную сеть UNet для устранения шума, обеспечивая возможность пользователям контролировать различные сцены через текст. IMAGDressing-v1 может быть объединен с другими расширениями, такими как ControlNet и IP-Adapter, для улучшения разнообразия и управляемости созданных изображений. Кроме того, для решения недостатка данных, мы выпускаем интерактивный набор данных пар одежды (IGPair), содержащий более 300 000 пар одежды и одетых изображений, и устанавливаем стандартный конвейер для сборки данных. Обширные эксперименты демонстрируют, что наш IMAGDressing-v1 достигает передового уровня производительности синтеза изображений людей в различных контролируемых условиях. Код и модель будут доступны по адресу https://github.com/muzishen/IMAGDressing.

English

Latest advances have achieved realistic virtual try-on (VTON) through localized garment inpainting using latent diffusion models, significantly enhancing consumers' online shopping experience. However, existing VTON technologies neglect the need for merchants to showcase garments comprehensively, including flexible control over garments, optional faces, poses, and scenes. To address this issue, we define a virtual dressing (VD) task focused on generating freely editable human images with fixed garments and optional conditions. Meanwhile, we design a comprehensive affinity metric index (CAMI) to evaluate the consistency between generated images and reference garments. Then, we propose IMAGDressing-v1, which incorporates a garment UNet that captures semantic features from CLIP and texture features from VAE. We present a hybrid attention module, including a frozen self-attention and a trainable cross-attention, to integrate garment features from the garment UNet into a frozen denoising UNet, ensuring users can control different scenes through text. IMAGDressing-v1 can be combined with other extension plugins, such as ControlNet and IP-Adapter, to enhance the diversity and controllability of generated images. Furthermore, to address the lack of data, we release the interactive garment pairing (IGPair) dataset, containing over 300,000 pairs of clothing and dressed images, and establish a standard pipeline for data assembly. Extensive experiments demonstrate that our IMAGDressing-v1 achieves state-of-the-art human image synthesis performance under various controlled conditions. The code and model will be available at https://github.com/muzishen/IMAGDressing.

IMAGDressing-v1: Настраиваемый виртуальный примерочный.

IMAGDressing-v1: Customizable Virtual Dressing

Аннотация

Support