ChatPaper.aiChatPaper

Diffuse to Choose: Verrijking van beeldgeconditioneerde inpainting in latente diffusiemodellen voor virtueel uitproberen

Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent Diffusion Models for Virtual Try-All

January 24, 2024
Auteurs: Mehmet Saygin Seyfioglu, Karim Bouyarmane, Suren Kumar, Amir Tavanaei, Ismail B. Tutar
cs.AI

Samenvatting

Naarmate online winkelen groeit, is het vermogen van kopers om producten virtueel in hun omgeving te visualiseren - een fenomeen dat we definiëren als "Virtual Try-All" - van cruciaal belang geworden. Recente diffusiemodellen bevatten van nature een wereldmodel, waardoor ze geschikt zijn voor deze taak binnen een inpainting-context. Traditionele beeld-geconditioneerde diffusiemodellen slagen er echter vaak niet in om de fijne details van producten vast te leggen. Daarentegen zijn personalisatie-gedreven modellen zoals DreamPaint goed in het behouden van de details van het item, maar zijn ze niet geoptimaliseerd voor realtime toepassingen. Wij presenteren "Diffuse to Choose", een nieuw diffusie-gebaseerd beeld-geconditioneerd inpainting-model dat efficiënt een snelle inferentie balanceert met het behoud van hoogwaardige details in een gegeven referentie-item, terwijl het nauwkeurige semantische manipulaties in de gegeven scène-inhoud waarborgt. Onze aanpak is gebaseerd op het integreren van fijnmazige kenmerken uit de referentie-afbeelding rechtstreeks in de latente kenmerkkaarten van het hoofd-diffusiemodel, samen met een perceptueel verlies om de details van het referentie-item verder te behouden. We voeren uitgebreide tests uit op zowel interne als publiekelijk beschikbare datasets, en tonen aan dat Diffuse to Choose superieur is aan bestaande zero-shot diffusie-inpainting-methoden, evenals few-shot diffusie-personalisatie-algoritmen zoals DreamPaint.
English
As online shopping is growing, the ability for buyers to virtually visualize products in their settings-a phenomenon we define as "Virtual Try-All"-has become crucial. Recent diffusion models inherently contain a world model, rendering them suitable for this task within an inpainting context. However, traditional image-conditioned diffusion models often fail to capture the fine-grained details of products. In contrast, personalization-driven models such as DreamPaint are good at preserving the item's details but they are not optimized for real-time applications. We present "Diffuse to Choose," a novel diffusion-based image-conditioned inpainting model that efficiently balances fast inference with the retention of high-fidelity details in a given reference item while ensuring accurate semantic manipulations in the given scene content. Our approach is based on incorporating fine-grained features from the reference image directly into the latent feature maps of the main diffusion model, alongside with a perceptual loss to further preserve the reference item's details. We conduct extensive testing on both in-house and publicly available datasets, and show that Diffuse to Choose is superior to existing zero-shot diffusion inpainting methods as well as few-shot diffusion personalization algorithms like DreamPaint.
PDF682February 7, 2026