Difundir para Escolher: Enriquecendo a Restauração de Imagens Condicionadas em Modelos de Difusão Latente para Experimentação Virtual
Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent Diffusion Models for Virtual Try-All
January 24, 2024
Autores: Mehmet Saygin Seyfioglu, Karim Bouyarmane, Suren Kumar, Amir Tavanaei, Ismail B. Tutar
cs.AI
Resumo
À medida que as compras online crescem, a capacidade dos compradores de visualizar virtualmente produtos em seus ambientes - um fenômeno que definimos como "Virtual Try-All" - tornou-se crucial. Modelos de difusão recentes contêm inerentemente um modelo de mundo, tornando-os adequados para essa tarefa em um contexto de inpainting. No entanto, modelos tradicionais de difusão condicionados por imagem frequentemente falham em capturar os detalhes refinados dos produtos. Em contraste, modelos orientados por personalização, como o DreamPaint, são bons em preservar os detalhes do item, mas não são otimizados para aplicações em tempo real. Apresentamos "Diffuse to Choose", um novo modelo de inpainting condicionado por imagem baseado em difusão que equilibra eficientemente inferência rápida com a retenção de detalhes de alta fidelidade em um item de referência, garantindo manipulações semânticas precisas no conteúdo da cena. Nossa abordagem baseia-se na incorporação de características refinadas da imagem de referência diretamente nos mapas de características latentes do modelo principal de difusão, juntamente com uma perda perceptual para preservar ainda mais os detalhes do item de referência. Realizamos testes extensivos em conjuntos de dados internos e publicamente disponíveis, e mostramos que o Diffuse to Choose é superior aos métodos existentes de inpainting por difusão zero-shot, bem como aos algoritmos de personalização de difusão few-shot, como o DreamPaint.
English
As online shopping is growing, the ability for buyers to virtually visualize
products in their settings-a phenomenon we define as "Virtual Try-All"-has
become crucial. Recent diffusion models inherently contain a world model,
rendering them suitable for this task within an inpainting context. However,
traditional image-conditioned diffusion models often fail to capture the
fine-grained details of products. In contrast, personalization-driven models
such as DreamPaint are good at preserving the item's details but they are not
optimized for real-time applications. We present "Diffuse to Choose," a novel
diffusion-based image-conditioned inpainting model that efficiently balances
fast inference with the retention of high-fidelity details in a given reference
item while ensuring accurate semantic manipulations in the given scene content.
Our approach is based on incorporating fine-grained features from the reference
image directly into the latent feature maps of the main diffusion model,
alongside with a perceptual loss to further preserve the reference item's
details. We conduct extensive testing on both in-house and publicly available
datasets, and show that Diffuse to Choose is superior to existing zero-shot
diffusion inpainting methods as well as few-shot diffusion personalization
algorithms like DreamPaint.