AnyDressing: Vestir Virtual de Múltiplas Peças Personalizável via Modelos de Difusão Latente
AnyDressing: Customizable Multi-Garment Virtual Dressing via Latent Diffusion Models
December 5, 2024
Autores: Xinghui Li, Qichao Sun, Pengze Zhang, Fulong Ye, Zhichao Liao, Wanquan Feng, Songtao Zhao, Qian He
cs.AI
Resumo
Os recentes avanços na geração de imagens centradas em vestuário a partir de textos e prompts de imagem baseados em modelos de difusão são impressionantes. No entanto, os métodos existentes carecem de suporte para várias combinações de vestuário e têm dificuldade em preservar os detalhes das roupas ao manter fidelidade aos prompts de texto, limitando seu desempenho em cenários diversos. Neste artigo, focamos em uma nova tarefa, ou seja, o Vestuário Virtual Multi-Garment, e propomos um novo método chamado AnyDressing para personalizar personagens condicionados a qualquer combinação de roupas e prompts de texto personalizados. O AnyDressing é composto por duas redes principais chamadas GarmentsNet e DressingNet, que são dedicadas, respectivamente, a extrair características detalhadas de roupas e gerar imagens personalizadas. Especificamente, propomos um módulo eficiente e escalável chamado Extrator de Características Específicas de Vestuário no GarmentsNet para codificar individualmente texturas de roupas em paralelo. Este design evita confusão de roupas, garantindo a eficiência da rede. Enquanto isso, projetamos um mecanismo de Atenção ao Vestir adaptativo e uma estratégia de Aprendizado de Localização de Vestuário em Nível de Instância inovadora no DressingNet para injetar com precisão características de múltiplos vestuários em suas regiões correspondentes. Esta abordagem integra eficientemente pistas de textura de múltiplos vestuários nas imagens geradas e aprimora ainda mais a consistência texto-imagem. Além disso, introduzimos uma estratégia de Aprendizado de Textura Aprimorada por Vestuário para melhorar os detalhes de textura refinados das roupas. Graças ao nosso design bem elaborado, o AnyDressing pode servir como um módulo plug-in para integrar facilmente com quaisquer extensões de controle comunitário para modelos de difusão, melhorando a diversidade e controlabilidade das imagens sintetizadas. Experimentos extensos mostram que o AnyDressing alcança resultados de ponta.
English
Recent advances in garment-centric image generation from text and image
prompts based on diffusion models are impressive. However, existing methods
lack support for various combinations of attire, and struggle to preserve the
garment details while maintaining faithfulness to the text prompts, limiting
their performance across diverse scenarios. In this paper, we focus on a new
task, i.e., Multi-Garment Virtual Dressing, and we propose a novel AnyDressing
method for customizing characters conditioned on any combination of garments
and any personalized text prompts. AnyDressing comprises two primary networks
named GarmentsNet and DressingNet, which are respectively dedicated to
extracting detailed clothing features and generating customized images.
Specifically, we propose an efficient and scalable module called
Garment-Specific Feature Extractor in GarmentsNet to individually encode
garment textures in parallel. This design prevents garment confusion while
ensuring network efficiency. Meanwhile, we design an adaptive
Dressing-Attention mechanism and a novel Instance-Level Garment Localization
Learning strategy in DressingNet to accurately inject multi-garment features
into their corresponding regions. This approach efficiently integrates
multi-garment texture cues into generated images and further enhances
text-image consistency. Additionally, we introduce a Garment-Enhanced Texture
Learning strategy to improve the fine-grained texture details of garments.
Thanks to our well-craft design, AnyDressing can serve as a plug-in module to
easily integrate with any community control extensions for diffusion models,
improving the diversity and controllability of synthesized images. Extensive
experiments show that AnyDressing achieves state-of-the-art results.Summary
AI-Generated Summary