AnyDressing: Anpassbare virtuelle Anprobe für mehrere Kleidungsstücke mittels Latenter Diffusionsmodelle

papers.abstract

Die jüngsten Fortschritte in der generativen Bildgebung von Kleidungsstücken aus Text- und Bildanweisungen basierend auf Diffusionsmodellen sind beeindruckend. Allerdings fehlt es den bestehenden Methoden an Unterstützung für verschiedene Kombinationen von Kleidung und sie haben Schwierigkeiten, die Details der Kleidungsstücke zu bewahren, während sie der Textanweisungen treu bleiben, was ihre Leistungsfähigkeit in verschiedenen Szenarien einschränkt. In diesem Artikel konzentrieren wir uns auf eine neue Aufgabe, nämlich das Multi-Kleidungsstück-Virtual-Dressing, und schlagen eine neue Methode namens AnyDressing zur Anpassung von Charakteren vor, die auf beliebigen Kombinationen von Kleidungsstücken und personalisierten Textanweisungen basiert. AnyDressing besteht aus zwei Hauptnetzwerken namens GarmentsNet und DressingNet, die jeweils darauf spezialisiert sind, detaillierte Kleidungsmerkmale zu extrahieren und maßgeschneiderte Bilder zu generieren. Insbesondere schlagen wir ein effizientes und skalierbares Modul namens Garment-Specific Feature Extractor in GarmentsNet vor, um Kleidungstexturen individuell parallel zu codieren. Dieses Design verhindert Verwirrung bei den Kleidungsstücken und gewährleistet gleichzeitig die Effizienz des Netzwerks. Gleichzeitig entwerfen wir einen adaptiven Dressing-Attention-Mechanismus und eine neuartige Instance-Level Garment Localization Learning-Strategie in DressingNet, um mehrere Kleidungsmerkmale genau in ihre entsprechenden Regionen einzuspeisen. Dieser Ansatz integriert effizient mehrere Kleidungstexturhinweise in generierte Bilder und verbessert die Text-Bild-Konsistenz weiter. Darüber hinaus führen wir eine Garment-Enhanced Texture Learning-Strategie ein, um die feinkörnigen Texturdetails der Kleidungsstücke zu verbessern. Dank unseres durchdachten Designs kann AnyDressing als Plug-in-Modul dienen, das einfach mit beliebigen Community-Steuerungserweiterungen für Diffusionsmodelle integriert werden kann, um die Vielfalt und Steuerbarkeit der synthetisierten Bilder zu verbessern. Umfangreiche Experimente zeigen, dass AnyDressing Spitzenleistungen erzielt.

English

Recent advances in garment-centric image generation from text and image prompts based on diffusion models are impressive. However, existing methods lack support for various combinations of attire, and struggle to preserve the garment details while maintaining faithfulness to the text prompts, limiting their performance across diverse scenarios. In this paper, we focus on a new task, i.e., Multi-Garment Virtual Dressing, and we propose a novel AnyDressing method for customizing characters conditioned on any combination of garments and any personalized text prompts. AnyDressing comprises two primary networks named GarmentsNet and DressingNet, which are respectively dedicated to extracting detailed clothing features and generating customized images. Specifically, we propose an efficient and scalable module called Garment-Specific Feature Extractor in GarmentsNet to individually encode garment textures in parallel. This design prevents garment confusion while ensuring network efficiency. Meanwhile, we design an adaptive Dressing-Attention mechanism and a novel Instance-Level Garment Localization Learning strategy in DressingNet to accurately inject multi-garment features into their corresponding regions. This approach efficiently integrates multi-garment texture cues into generated images and further enhances text-image consistency. Additionally, we introduce a Garment-Enhanced Texture Learning strategy to improve the fine-grained texture details of garments. Thanks to our well-craft design, AnyDressing can serve as a plug-in module to easily integrate with any community control extensions for diffusion models, improving the diversity and controllability of synthesized images. Extensive experiments show that AnyDressing achieves state-of-the-art results.

AnyDressing: Anpassbare virtuelle Anprobe für mehrere Kleidungsstücke mittels Latenter Diffusionsmodelle

AnyDressing: Customizable Multi-Garment Virtual Dressing via Latent Diffusion Models

papers.abstract

Support