ChatPaper.aiChatPaper

ViPer: 개인 선호도 학습을 통한 생성 모델의 시각적 개인화

ViPer: Visual Personalization of Generative Models via Individual Preference Learning

July 24, 2024
저자: Sogand Salehi, Mahdi Shafiei, Teresa Yeo, Roman Bachmann, Amir Zamir
cs.AI

초록

동일한 프롬프트에 대해 생성된 이미지가 사용자마다 선호하는 바가 다릅니다. 이로 인해 개인의 시각적 선호도에 맞춘 이미지를 생성하는 개인화된 이미지 생성이 필요하게 되었습니다. 그러나 현재의 생성 모델은 광범위한 대중에게 어필할 수 있는 출력물을 생성하도록 조정되어 있어 개인화되지 않은 상태입니다. 이를 통해 개별 사용자의 선호도에 맞는 이미지를 생성하려면 사용자가 반복적으로 수동으로 프롬프트를 조정해야 하는데, 이는 비효율적이며 바람직하지 않습니다. 우리는 이미지 생성 과정을 개인화하기 위해, 사용자에게 소수의 이미지를 제시하고 각 이미지를 좋아하거나 싫어하는 이유를 설명하도록 요청함으로써 사용자의 일반적인 선호도를 일회성 프로세스로 파악하는 방법을 제안합니다. 이러한 설명을 바탕으로, 대규모 언어 모델을 사용하여 사용자가 선호하거나 싫어하는 구조화된 시각적 속성, 즉 시각적 선호도를 추론합니다. 이러한 속성은 텍스트-이미지 모델이 개별 사용자의 시각적 선호도에 맞춰 이미지를 생성하도록 유도하는 데 사용됩니다. 일련의 사용자 연구와 대규모 언어 모델 기반 평가를 통해, 우리는 제안된 방법이 개별 사용자의 시각적 선호도와 잘 맞는 이미지를 생성한다는 것을 입증합니다.
English
Different users find different images generated for the same prompt desirable. This gives rise to personalized image generation which involves creating images aligned with an individual's visual preference. Current generative models are, however, unpersonalized, as they are tuned to produce outputs that appeal to a broad audience. Using them to generate images aligned with individual users relies on iterative manual prompt engineering by the user which is inefficient and undesirable. We propose to personalize the image generation process by first capturing the generic preferences of the user in a one-time process by inviting them to comment on a small selection of images, explaining why they like or dislike each. Based on these comments, we infer a user's structured liked and disliked visual attributes, i.e., their visual preference, using a large language model. These attributes are used to guide a text-to-image model toward producing images that are tuned towards the individual user's visual preference. Through a series of user studies and large language model guided evaluations, we demonstrate that the proposed method results in generations that are well aligned with individual users' visual preferences.

Summary

AI-Generated Summary

PDF132November 28, 2024