AnyDressing: Vestir Virtual de Múltiplas Peças Personalizável via Modelos de Difusão Latente

Resumo

Os recentes avanços na geração de imagens centradas em vestuário a partir de textos e prompts de imagem baseados em modelos de difusão são impressionantes. No entanto, os métodos existentes carecem de suporte para várias combinações de vestuário e têm dificuldade em preservar os detalhes das roupas ao manter fidelidade aos prompts de texto, limitando seu desempenho em cenários diversos. Neste artigo, focamos em uma nova tarefa, ou seja, o Vestuário Virtual Multi-Garment, e propomos um novo método chamado AnyDressing para personalizar personagens condicionados a qualquer combinação de roupas e prompts de texto personalizados. O AnyDressing é composto por duas redes principais chamadas GarmentsNet e DressingNet, que são dedicadas, respectivamente, a extrair características detalhadas de roupas e gerar imagens personalizadas. Especificamente, propomos um módulo eficiente e escalável chamado Extrator de Características Específicas de Vestuário no GarmentsNet para codificar individualmente texturas de roupas em paralelo. Este design evita confusão de roupas, garantindo a eficiência da rede. Enquanto isso, projetamos um mecanismo de Atenção ao Vestir adaptativo e uma estratégia de Aprendizado de Localização de Vestuário em Nível de Instância inovadora no DressingNet para injetar com precisão características de múltiplos vestuários em suas regiões correspondentes. Esta abordagem integra eficientemente pistas de textura de múltiplos vestuários nas imagens geradas e aprimora ainda mais a consistência texto-imagem. Além disso, introduzimos uma estratégia de Aprendizado de Textura Aprimorada por Vestuário para melhorar os detalhes de textura refinados das roupas. Graças ao nosso design bem elaborado, o AnyDressing pode servir como um módulo plug-in para integrar facilmente com quaisquer extensões de controle comunitário para modelos de difusão, melhorando a diversidade e controlabilidade das imagens sintetizadas. Experimentos extensos mostram que o AnyDressing alcança resultados de ponta.

English

Recent advances in garment-centric image generation from text and image prompts based on diffusion models are impressive. However, existing methods lack support for various combinations of attire, and struggle to preserve the garment details while maintaining faithfulness to the text prompts, limiting their performance across diverse scenarios. In this paper, we focus on a new task, i.e., Multi-Garment Virtual Dressing, and we propose a novel AnyDressing method for customizing characters conditioned on any combination of garments and any personalized text prompts. AnyDressing comprises two primary networks named GarmentsNet and DressingNet, which are respectively dedicated to extracting detailed clothing features and generating customized images. Specifically, we propose an efficient and scalable module called Garment-Specific Feature Extractor in GarmentsNet to individually encode garment textures in parallel. This design prevents garment confusion while ensuring network efficiency. Meanwhile, we design an adaptive Dressing-Attention mechanism and a novel Instance-Level Garment Localization Learning strategy in DressingNet to accurately inject multi-garment features into their corresponding regions. This approach efficiently integrates multi-garment texture cues into generated images and further enhances text-image consistency. Additionally, we introduce a Garment-Enhanced Texture Learning strategy to improve the fine-grained texture details of garments. Thanks to our well-craft design, AnyDressing can serve as a plug-in module to easily integrate with any community control extensions for diffusion models, improving the diversity and controllability of synthesized images. Extensive experiments show that AnyDressing achieves state-of-the-art results.

AnyDressing: Vestir Virtual de Múltiplas Peças Personalizável via Modelos de Difusão Latente

AnyDressing: Customizable Multi-Garment Virtual Dressing via Latent Diffusion Models

Resumo

Support