ChatPaper.aiChatPaper

선택으로 확산: 가상 체험을 위한 잠재 확산 모델에서의 이미지 조건부 인페인팅 강화

Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent Diffusion Models for Virtual Try-All

January 24, 2024
저자: Mehmet Saygin Seyfioglu, Karim Bouyarmane, Suren Kumar, Amir Tavanaei, Ismail B. Tutar
cs.AI

초록

온라인 쇼핑이 증가함에 따라, 구매자가 자신의 환경에서 제품을 가상으로 시각화할 수 있는 능력, 즉 우리가 "가상 체험(Virtual Try-All)"로 정의하는 현상이 중요해지고 있다. 최근의 확산 모델은 본질적으로 세계 모델을 포함하고 있어, 인페인팅(inpainting) 맥락에서 이 작업에 적합하다. 그러나 전통적인 이미지 조건부 확산 모델은 종종 제품의 세밀한 디테일을 포착하지 못한다. 반면, DreamPaint와 같은 개인화 중심 모델은 아이템의 디테일을 잘 보존하지만 실시간 애플리케이션에 최적화되어 있지 않다. 우리는 "Diffuse to Choose"라는 새로운 확산 기반 이미지 조건부 인페인팅 모델을 제안한다. 이 모델은 빠른 추론과 주어진 참조 아이템의 고해상도 디테일 보존 사이의 효율적인 균형을 유지하면서, 주어진 장면 내용에서 정확한 의미론적 조작을 보장한다. 우리의 접근 방식은 참조 이미지의 세밀한 특징을 메인 확산 모델의 잠재 특징 맵에 직접 통합하고, 참조 아이템의 디테일을 더욱 보존하기 위해 지각 손실(perceptual loss)을 추가하는 것이다. 우리는 내부 데이터셋과 공개적으로 이용 가능한 데이터셋에 대해 광범위한 테스트를 수행했으며, Diffuse to Choose가 기존의 제로샷(zero-shot) 확산 인페인팅 방법과 DreamPaint와 같은 소수샷(few-shot) 확산 개인화 알고리즘보다 우수함을 보여준다.
English
As online shopping is growing, the ability for buyers to virtually visualize products in their settings-a phenomenon we define as "Virtual Try-All"-has become crucial. Recent diffusion models inherently contain a world model, rendering them suitable for this task within an inpainting context. However, traditional image-conditioned diffusion models often fail to capture the fine-grained details of products. In contrast, personalization-driven models such as DreamPaint are good at preserving the item's details but they are not optimized for real-time applications. We present "Diffuse to Choose," a novel diffusion-based image-conditioned inpainting model that efficiently balances fast inference with the retention of high-fidelity details in a given reference item while ensuring accurate semantic manipulations in the given scene content. Our approach is based on incorporating fine-grained features from the reference image directly into the latent feature maps of the main diffusion model, alongside with a perceptual loss to further preserve the reference item's details. We conduct extensive testing on both in-house and publicly available datasets, and show that Diffuse to Choose is superior to existing zero-shot diffusion inpainting methods as well as few-shot diffusion personalization algorithms like DreamPaint.
PDF692December 15, 2024