ChatPaper.aiChatPaper

Diffuse to Choose : Enrichissement de la restauration d'images conditionnée dans les modèles de diffusion latente pour l'essayage virtuel

Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent Diffusion Models for Virtual Try-All

January 24, 2024
Auteurs: Mehmet Saygin Seyfioglu, Karim Bouyarmane, Suren Kumar, Amir Tavanaei, Ismail B. Tutar
cs.AI

Résumé

Alors que le commerce en ligne se développe, la capacité des acheteurs à visualiser virtuellement des produits dans leur environnement - un phénomène que nous définissons comme "Virtual Try-All" - est devenue cruciale. Les modèles de diffusion récents contiennent intrinsèquement un modèle du monde, les rendant adaptés à cette tâche dans un contexte de réparation d'image. Cependant, les modèles de diffusion traditionnels conditionnés par l'image échouent souvent à capturer les détails fins des produits. En revanche, les modèles axés sur la personnalisation, tels que DreamPaint, sont efficaces pour préserver les détails des articles mais ne sont pas optimisés pour des applications en temps réel. Nous présentons "Diffuse to Choose", un nouveau modèle de réparation d'image basé sur la diffusion et conditionné par l'image, qui équilibre efficacement une inférence rapide avec la rétention de détails haute fidélité d'un article de référence tout en assurant des manipulations sémantiques précises dans le contenu de la scène donnée. Notre approche repose sur l'incorporation de caractéristiques fines de l'image de référence directement dans les cartes de caractéristiques latentes du modèle de diffusion principal, accompagnée d'une perte perceptuelle pour préserver davantage les détails de l'article de référence. Nous menons des tests approfondis sur des ensembles de données internes et publics, et montrons que Diffuse to Choose surpasse les méthodes existantes de réparation d'image par diffusion en zero-shot ainsi que les algorithmes de personnalisation par diffusion en few-shot comme DreamPaint.
English
As online shopping is growing, the ability for buyers to virtually visualize products in their settings-a phenomenon we define as "Virtual Try-All"-has become crucial. Recent diffusion models inherently contain a world model, rendering them suitable for this task within an inpainting context. However, traditional image-conditioned diffusion models often fail to capture the fine-grained details of products. In contrast, personalization-driven models such as DreamPaint are good at preserving the item's details but they are not optimized for real-time applications. We present "Diffuse to Choose," a novel diffusion-based image-conditioned inpainting model that efficiently balances fast inference with the retention of high-fidelity details in a given reference item while ensuring accurate semantic manipulations in the given scene content. Our approach is based on incorporating fine-grained features from the reference image directly into the latent feature maps of the main diffusion model, alongside with a perceptual loss to further preserve the reference item's details. We conduct extensive testing on both in-house and publicly available datasets, and show that Diffuse to Choose is superior to existing zero-shot diffusion inpainting methods as well as few-shot diffusion personalization algorithms like DreamPaint.
PDF692December 15, 2024