AnyDressing: Anpassbare virtuelle Anprobe für mehrere Kleidungsstücke mittels Latenter Diffusionsmodelle
AnyDressing: Customizable Multi-Garment Virtual Dressing via Latent Diffusion Models
December 5, 2024
Autoren: Xinghui Li, Qichao Sun, Pengze Zhang, Fulong Ye, Zhichao Liao, Wanquan Feng, Songtao Zhao, Qian He
cs.AI
Zusammenfassung
Die jüngsten Fortschritte in der generativen Bildgebung von Kleidungsstücken aus Text- und Bildanweisungen basierend auf Diffusionsmodellen sind beeindruckend. Allerdings fehlt es den bestehenden Methoden an Unterstützung für verschiedene Kombinationen von Kleidung und sie haben Schwierigkeiten, die Details der Kleidungsstücke zu bewahren, während sie der Textanweisungen treu bleiben, was ihre Leistungsfähigkeit in verschiedenen Szenarien einschränkt. In diesem Artikel konzentrieren wir uns auf eine neue Aufgabe, nämlich das Multi-Kleidungsstück-Virtual-Dressing, und schlagen eine neue Methode namens AnyDressing zur Anpassung von Charakteren vor, die auf beliebigen Kombinationen von Kleidungsstücken und personalisierten Textanweisungen basiert. AnyDressing besteht aus zwei Hauptnetzwerken namens GarmentsNet und DressingNet, die jeweils darauf spezialisiert sind, detaillierte Kleidungsmerkmale zu extrahieren und maßgeschneiderte Bilder zu generieren. Insbesondere schlagen wir ein effizientes und skalierbares Modul namens Garment-Specific Feature Extractor in GarmentsNet vor, um Kleidungstexturen individuell parallel zu codieren. Dieses Design verhindert Verwirrung bei den Kleidungsstücken und gewährleistet gleichzeitig die Effizienz des Netzwerks. Gleichzeitig entwerfen wir einen adaptiven Dressing-Attention-Mechanismus und eine neuartige Instance-Level Garment Localization Learning-Strategie in DressingNet, um mehrere Kleidungsmerkmale genau in ihre entsprechenden Regionen einzuspeisen. Dieser Ansatz integriert effizient mehrere Kleidungstexturhinweise in generierte Bilder und verbessert die Text-Bild-Konsistenz weiter. Darüber hinaus führen wir eine Garment-Enhanced Texture Learning-Strategie ein, um die feinkörnigen Texturdetails der Kleidungsstücke zu verbessern. Dank unseres durchdachten Designs kann AnyDressing als Plug-in-Modul dienen, das einfach mit beliebigen Community-Steuerungserweiterungen für Diffusionsmodelle integriert werden kann, um die Vielfalt und Steuerbarkeit der synthetisierten Bilder zu verbessern. Umfangreiche Experimente zeigen, dass AnyDressing Spitzenleistungen erzielt.
English
Recent advances in garment-centric image generation from text and image
prompts based on diffusion models are impressive. However, existing methods
lack support for various combinations of attire, and struggle to preserve the
garment details while maintaining faithfulness to the text prompts, limiting
their performance across diverse scenarios. In this paper, we focus on a new
task, i.e., Multi-Garment Virtual Dressing, and we propose a novel AnyDressing
method for customizing characters conditioned on any combination of garments
and any personalized text prompts. AnyDressing comprises two primary networks
named GarmentsNet and DressingNet, which are respectively dedicated to
extracting detailed clothing features and generating customized images.
Specifically, we propose an efficient and scalable module called
Garment-Specific Feature Extractor in GarmentsNet to individually encode
garment textures in parallel. This design prevents garment confusion while
ensuring network efficiency. Meanwhile, we design an adaptive
Dressing-Attention mechanism and a novel Instance-Level Garment Localization
Learning strategy in DressingNet to accurately inject multi-garment features
into their corresponding regions. This approach efficiently integrates
multi-garment texture cues into generated images and further enhances
text-image consistency. Additionally, we introduce a Garment-Enhanced Texture
Learning strategy to improve the fine-grained texture details of garments.
Thanks to our well-craft design, AnyDressing can serve as a plug-in module to
easily integrate with any community control extensions for diffusion models,
improving the diversity and controllability of synthesized images. Extensive
experiments show that AnyDressing achieves state-of-the-art results.Summary
AI-Generated Summary