ViPer: Visuele Personalisatie van Generatieve Modellen via Individueel Voorkeurenleren
ViPer: Visual Personalization of Generative Models via Individual Preference Learning
July 24, 2024
Auteurs: Sogand Salehi, Mahdi Shafiei, Teresa Yeo, Roman Bachmann, Amir Zamir
cs.AI
Samenvatting
Verschillende gebruikers vinden verschillende afbeeldingen die gegenereerd worden voor dezelfde prompt aantrekkelijk. Dit leidt tot gepersonaliseerde beeldgeneratie, waarbij afbeeldingen worden gemaakt die aansluiten bij de visuele voorkeur van een individu. Huidige generatieve modellen zijn echter onpersoonlijk, omdat ze zijn afgestemd op het produceren van uitkomsten die een breed publiek aanspreken. Het gebruik ervan om afbeeldingen te genereren die aansluiten bij individuele gebruikers, is afhankelijk van iteratieve handmatige prompt engineering door de gebruiker, wat inefficiënt en ongewenst is. Wij stellen voor om het beeldgeneratieproces te personaliseren door eerst de algemene voorkeuren van de gebruiker vast te leggen in een eenmalig proces, waarbij ze worden uitgenodigd om commentaar te geven op een kleine selectie afbeeldingen en uit te leggen waarom ze elke afbeelding wel of niet leuk vinden. Op basis van deze commentaren leiden we de gestructureerde gewaardeerde en niet-gewaardeerde visuele attributen van een gebruiker af, d.w.z. hun visuele voorkeur, met behulp van een groot taalmodel. Deze attributen worden gebruikt om een tekst-naar-beeldmodel te sturen bij het produceren van afbeeldingen die zijn afgestemd op de visuele voorkeur van de individuele gebruiker. Door middel van een reeks gebruikersstudies en evaluaties geleid door grote taalmodelen, tonen we aan dat de voorgestelde methode resulteert in generaties die goed aansluiten bij de visuele voorkeuren van individuele gebruikers.
English
Different users find different images generated for the same prompt
desirable. This gives rise to personalized image generation which involves
creating images aligned with an individual's visual preference. Current
generative models are, however, unpersonalized, as they are tuned to produce
outputs that appeal to a broad audience. Using them to generate images aligned
with individual users relies on iterative manual prompt engineering by the user
which is inefficient and undesirable. We propose to personalize the image
generation process by first capturing the generic preferences of the user in a
one-time process by inviting them to comment on a small selection of images,
explaining why they like or dislike each. Based on these comments, we infer a
user's structured liked and disliked visual attributes, i.e., their visual
preference, using a large language model. These attributes are used to guide a
text-to-image model toward producing images that are tuned towards the
individual user's visual preference. Through a series of user studies and large
language model guided evaluations, we demonstrate that the proposed method
results in generations that are well aligned with individual users' visual
preferences.