단일 이미지 반복적 주체 기반 생성 및 편집
Single Image Iterative Subject-driven Generation and Editing
March 20, 2025
저자: Yair Shpitzer, Gal Chechik, Idan Schwartz
cs.AI
초록
주제에 대한 이미지가 몇 장에 불과하거나 단일 이미지만 존재할 때, 이미지 생성 및 편집을 개인화하는 것은 특히 어려운 과제입니다. 개인화를 위한 일반적인 접근 방식은 개념 학습(concept learning)으로, 이는 주제를 기존 모델에 비교적 빠르게 통합할 수 있지만, 주제 이미지의 수가 적을 경우 생성된 이미지의 품질이 빠르게 저하되는 경향이 있습니다. 품질은 인코더를 사전 학습함으로써 개선할 수 있지만, 학습은 생성 범위를 학습 데이터 분포로 제한하며 시간이 많이 소요됩니다. 학습 없이 단일 이미지로부터 이미지 생성 및 편집을 개인화하는 것은 여전히 해결되지 않은 어려운 과제로 남아 있습니다. 본 연구에서는 입력 주제 이미지와의 유사도 점수를 최적화하는 새로운 학습 없는 접근 방식인 SISO를 제안합니다. 보다 구체적으로, SISO는 주어진 주제 이미지와의 유사도 손실을 기반으로 모델을 최적화하며, 만족스러운 수준의 유사도가 달성될 때까지 이미지를 반복적으로 생성합니다. 이를 통해 어떤 이미지 생성기에도 플러그 앤 플레이 방식으로 최적화를 적용할 수 있습니다. 우리는 SISO를 이미지 편집 및 이미지 생성 두 가지 작업에서 평가했으며, 다양한 개인 주제 데이터 세트를 사용하여 기존 방법 대비 이미지 품질, 주제 충실도, 배경 보존 측면에서 상당한 개선을 입증했습니다.
English
Personalizing image generation and editing is particularly challenging when
we only have a few images of the subject, or even a single image. A common
approach to personalization is concept learning, which can integrate the
subject into existing models relatively quickly, but produces images whose
quality tends to deteriorate quickly when the number of subject images is
small. Quality can be improved by pre-training an encoder, but training
restricts generation to the training distribution, and is time consuming. It is
still an open hard challenge to personalize image generation and editing from a
single image without training. Here, we present SISO, a novel, training-free
approach based on optimizing a similarity score with an input subject image.
More specifically, SISO iteratively generates images and optimizes the model
based on loss of similarity with the given subject image until a satisfactory
level of similarity is achieved, allowing plug-and-play optimization to any
image generator. We evaluated SISO in two tasks, image editing and image
generation, using a diverse data set of personal subjects, and demonstrate
significant improvements over existing methods in image quality, subject
fidelity, and background preservation.Summary
AI-Generated Summary