ChatPaper.aiChatPaper

ViPer: Visuele Personalisatie van Generatieve Modellen via Individueel Voorkeurenleren

ViPer: Visual Personalization of Generative Models via Individual Preference Learning

July 24, 2024
Auteurs: Sogand Salehi, Mahdi Shafiei, Teresa Yeo, Roman Bachmann, Amir Zamir
cs.AI

Samenvatting

Verschillende gebruikers vinden verschillende afbeeldingen die gegenereerd worden voor dezelfde prompt aantrekkelijk. Dit leidt tot gepersonaliseerde beeldgeneratie, waarbij afbeeldingen worden gemaakt die aansluiten bij de visuele voorkeur van een individu. Huidige generatieve modellen zijn echter onpersoonlijk, omdat ze zijn afgestemd op het produceren van uitkomsten die een breed publiek aanspreken. Het gebruik ervan om afbeeldingen te genereren die aansluiten bij individuele gebruikers, is afhankelijk van iteratieve handmatige prompt engineering door de gebruiker, wat inefficiënt en ongewenst is. Wij stellen voor om het beeldgeneratieproces te personaliseren door eerst de algemene voorkeuren van de gebruiker vast te leggen in een eenmalig proces, waarbij ze worden uitgenodigd om commentaar te geven op een kleine selectie afbeeldingen en uit te leggen waarom ze elke afbeelding wel of niet leuk vinden. Op basis van deze commentaren leiden we de gestructureerde gewaardeerde en niet-gewaardeerde visuele attributen van een gebruiker af, d.w.z. hun visuele voorkeur, met behulp van een groot taalmodel. Deze attributen worden gebruikt om een tekst-naar-beeldmodel te sturen bij het produceren van afbeeldingen die zijn afgestemd op de visuele voorkeur van de individuele gebruiker. Door middel van een reeks gebruikersstudies en evaluaties geleid door grote taalmodelen, tonen we aan dat de voorgestelde methode resulteert in generaties die goed aansluiten bij de visuele voorkeuren van individuele gebruikers.
English
Different users find different images generated for the same prompt desirable. This gives rise to personalized image generation which involves creating images aligned with an individual's visual preference. Current generative models are, however, unpersonalized, as they are tuned to produce outputs that appeal to a broad audience. Using them to generate images aligned with individual users relies on iterative manual prompt engineering by the user which is inefficient and undesirable. We propose to personalize the image generation process by first capturing the generic preferences of the user in a one-time process by inviting them to comment on a small selection of images, explaining why they like or dislike each. Based on these comments, we infer a user's structured liked and disliked visual attributes, i.e., their visual preference, using a large language model. These attributes are used to guide a text-to-image model toward producing images that are tuned towards the individual user's visual preference. Through a series of user studies and large language model guided evaluations, we demonstrate that the proposed method results in generations that are well aligned with individual users' visual preferences.
PDF132November 28, 2024