ChatPaper.aiChatPaper

IMAGDressing-v1: Anpassbare Virtuelle Anprobe

IMAGDressing-v1: Customizable Virtual Dressing

July 17, 2024
Autoren: Fei Shen, Xin Jiang, Xin He, Hu Ye, Cong Wang, Xiaoyu Du, Zechao Li, Jinghui Tang
cs.AI

Zusammenfassung

Die neuesten Fortschritte haben realistisches virtuelles Anprobieren (VTON) durch lokales Kleidungsinpainting mithilfe latenter Diffusionsmodelle erreicht, was das Online-Shopping-Erlebnis der Verbraucher erheblich verbessert. Allerdings vernachlässigen bestehende VTON-Technologien die Notwendigkeit für Händler, Kleidungsstücke umfassend zu präsentieren, einschließlich flexibler Kontrolle über Kleidungsstücke, optionale Gesichter, Posen und Szenen. Um dieses Problem anzugehen, definieren wir eine virtuelle Ankleide (VD)-Aufgabe, die darauf abzielt, frei bearbeitbare menschliche Bilder mit festen Kleidungsstücken und optionalen Bedingungen zu generieren. Gleichzeitig entwerfen wir einen umfassenden Affinitätsmetrikindex (CAMI), um die Konsistenz zwischen generierten Bildern und Referenzkleidungsstücken zu bewerten. Anschließend schlagen wir IMAGDressing-v1 vor, das ein Kleidungs-UNet enthält, das semantische Merkmale von CLIP und Texturmerkmale von VAE erfasst. Wir präsentieren ein Hybrid-Aufmerksamkeitsmodul, das ein eingefrorenes Selbst-Aufmerksamkeit und ein trainierbares Kreuz-Aufmerksamkeit umfasst, um Kleidungsmerkmale aus dem Kleidungs-UNet in ein eingefrorenes Denoising-UNet zu integrieren, um sicherzustellen, dass Benutzer verschiedene Szenen durch Text steuern können. IMAGDressing-v1 kann mit anderen Erweiterungs-Plugins wie ControlNet und IP-Adapter kombiniert werden, um die Vielfalt und Steuerbarkeit der generierten Bilder zu verbessern. Darüber hinaus veröffentlichen wir zur Bewältigung des Mangels an Daten den interaktiven Kleidungspaarungs (IGPair)-Datensatz, der über 300.000 Paare von Kleidungsstücken und bekleideten Bildern enthält, und etablieren eine Standard-Pipeline für die Datenerstellung. Umfangreiche Experimente zeigen, dass unser IMAGDressing-v1 unter verschiedenen kontrollierten Bedingungen eine Spitzenleistung bei der Synthese menschlicher Bilder erzielt. Der Code und das Modell werden unter https://github.com/muzishen/IMAGDressing verfügbar sein.
English
Latest advances have achieved realistic virtual try-on (VTON) through localized garment inpainting using latent diffusion models, significantly enhancing consumers' online shopping experience. However, existing VTON technologies neglect the need for merchants to showcase garments comprehensively, including flexible control over garments, optional faces, poses, and scenes. To address this issue, we define a virtual dressing (VD) task focused on generating freely editable human images with fixed garments and optional conditions. Meanwhile, we design a comprehensive affinity metric index (CAMI) to evaluate the consistency between generated images and reference garments. Then, we propose IMAGDressing-v1, which incorporates a garment UNet that captures semantic features from CLIP and texture features from VAE. We present a hybrid attention module, including a frozen self-attention and a trainable cross-attention, to integrate garment features from the garment UNet into a frozen denoising UNet, ensuring users can control different scenes through text. IMAGDressing-v1 can be combined with other extension plugins, such as ControlNet and IP-Adapter, to enhance the diversity and controllability of generated images. Furthermore, to address the lack of data, we release the interactive garment pairing (IGPair) dataset, containing over 300,000 pairs of clothing and dressed images, and establish a standard pipeline for data assembly. Extensive experiments demonstrate that our IMAGDressing-v1 achieves state-of-the-art human image synthesis performance under various controlled conditions. The code and model will be available at https://github.com/muzishen/IMAGDressing.

Summary

AI-Generated Summary

PDF132November 28, 2024