IMAGDressing-v1: Anpassbare Virtuelle Anprobe
IMAGDressing-v1: Customizable Virtual Dressing
July 17, 2024
Autoren: Fei Shen, Xin Jiang, Xin He, Hu Ye, Cong Wang, Xiaoyu Du, Zechao Li, Jinghui Tang
cs.AI
Zusammenfassung
Die neuesten Fortschritte haben realistisches virtuelles Anprobieren (VTON) durch lokales Kleidungsinpainting mithilfe latenter Diffusionsmodelle erreicht, was das Online-Shopping-Erlebnis der Verbraucher erheblich verbessert. Allerdings vernachlässigen bestehende VTON-Technologien die Notwendigkeit für Händler, Kleidungsstücke umfassend zu präsentieren, einschließlich flexibler Kontrolle über Kleidungsstücke, optionale Gesichter, Posen und Szenen. Um dieses Problem anzugehen, definieren wir eine virtuelle Ankleide (VD)-Aufgabe, die darauf abzielt, frei bearbeitbare menschliche Bilder mit festen Kleidungsstücken und optionalen Bedingungen zu generieren. Gleichzeitig entwerfen wir einen umfassenden Affinitätsmetrikindex (CAMI), um die Konsistenz zwischen generierten Bildern und Referenzkleidungsstücken zu bewerten. Anschließend schlagen wir IMAGDressing-v1 vor, das ein Kleidungs-UNet enthält, das semantische Merkmale von CLIP und Texturmerkmale von VAE erfasst. Wir präsentieren ein Hybrid-Aufmerksamkeitsmodul, das ein eingefrorenes Selbst-Aufmerksamkeit und ein trainierbares Kreuz-Aufmerksamkeit umfasst, um Kleidungsmerkmale aus dem Kleidungs-UNet in ein eingefrorenes Denoising-UNet zu integrieren, um sicherzustellen, dass Benutzer verschiedene Szenen durch Text steuern können. IMAGDressing-v1 kann mit anderen Erweiterungs-Plugins wie ControlNet und IP-Adapter kombiniert werden, um die Vielfalt und Steuerbarkeit der generierten Bilder zu verbessern. Darüber hinaus veröffentlichen wir zur Bewältigung des Mangels an Daten den interaktiven Kleidungspaarungs (IGPair)-Datensatz, der über 300.000 Paare von Kleidungsstücken und bekleideten Bildern enthält, und etablieren eine Standard-Pipeline für die Datenerstellung. Umfangreiche Experimente zeigen, dass unser IMAGDressing-v1 unter verschiedenen kontrollierten Bedingungen eine Spitzenleistung bei der Synthese menschlicher Bilder erzielt. Der Code und das Modell werden unter https://github.com/muzishen/IMAGDressing verfügbar sein.
English
Latest advances have achieved realistic virtual try-on (VTON) through
localized garment inpainting using latent diffusion models, significantly
enhancing consumers' online shopping experience. However, existing VTON
technologies neglect the need for merchants to showcase garments
comprehensively, including flexible control over garments, optional faces,
poses, and scenes. To address this issue, we define a virtual dressing (VD)
task focused on generating freely editable human images with fixed garments and
optional conditions. Meanwhile, we design a comprehensive affinity metric index
(CAMI) to evaluate the consistency between generated images and reference
garments. Then, we propose IMAGDressing-v1, which incorporates a garment UNet
that captures semantic features from CLIP and texture features from VAE. We
present a hybrid attention module, including a frozen self-attention and a
trainable cross-attention, to integrate garment features from the garment UNet
into a frozen denoising UNet, ensuring users can control different scenes
through text. IMAGDressing-v1 can be combined with other extension plugins,
such as ControlNet and IP-Adapter, to enhance the diversity and controllability
of generated images. Furthermore, to address the lack of data, we release the
interactive garment pairing (IGPair) dataset, containing over 300,000 pairs of
clothing and dressed images, and establish a standard pipeline for data
assembly. Extensive experiments demonstrate that our IMAGDressing-v1 achieves
state-of-the-art human image synthesis performance under various controlled
conditions. The code and model will be available at
https://github.com/muzishen/IMAGDressing.Summary
AI-Generated Summary