Диффузия для выбора: расширение возможностей восстановления изображений с условием в латентных диффузионных моделях для виртуальной примерки
Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent Diffusion Models for Virtual Try-All
January 24, 2024
Авторы: Mehmet Saygin Seyfioglu, Karim Bouyarmane, Suren Kumar, Amir Tavanaei, Ismail B. Tutar
cs.AI
Аннотация
С ростом популярности онлайн-покупок способность покупателей виртуально визуализировать продукты в своих условиях — явление, которое мы определяем как "Виртуальная примерка всего" — становится крайне важной. Современные диффузионные модели по своей природе содержат модель мира, что делает их подходящими для этой задачи в контексте инпейнтинга. Однако традиционные диффузионные модели, основанные на изображениях, часто не способны уловить мелкие детали продуктов. В то же время персонализированные модели, такие как DreamPaint, хорошо сохраняют детали предметов, но они не оптимизированы для работы в реальном времени. Мы представляем "Diffuse to Choose" — новую диффузионную модель инпейнтинга, основанную на изображениях, которая эффективно сочетает быстрый вывод с сохранением высококачественных деталей в заданном эталонном предмете, обеспечивая при этом точные семантические манипуляции в содержимом сцены. Наш подход основан на включении мелкозернистых признаков из эталонного изображения непосредственно в латентные карты признаков основной диффузионной модели, а также на использовании перцептуальной потери для дальнейшего сохранения деталей эталонного предмета. Мы проводим обширное тестирование как на внутренних, так и на общедоступных наборах данных и показываем, что "Diffuse to Choose" превосходит существующие методы диффузионного инпейнтинга с нулевым обучением, а также алгоритмы персонализации диффузии с малым количеством примеров, такие как DreamPaint.
English
As online shopping is growing, the ability for buyers to virtually visualize
products in their settings-a phenomenon we define as "Virtual Try-All"-has
become crucial. Recent diffusion models inherently contain a world model,
rendering them suitable for this task within an inpainting context. However,
traditional image-conditioned diffusion models often fail to capture the
fine-grained details of products. In contrast, personalization-driven models
such as DreamPaint are good at preserving the item's details but they are not
optimized for real-time applications. We present "Diffuse to Choose," a novel
diffusion-based image-conditioned inpainting model that efficiently balances
fast inference with the retention of high-fidelity details in a given reference
item while ensuring accurate semantic manipulations in the given scene content.
Our approach is based on incorporating fine-grained features from the reference
image directly into the latent feature maps of the main diffusion model,
alongside with a perceptual loss to further preserve the reference item's
details. We conduct extensive testing on both in-house and publicly available
datasets, and show that Diffuse to Choose is superior to existing zero-shot
diffusion inpainting methods as well as few-shot diffusion personalization
algorithms like DreamPaint.