ViPer: Personalizzazione Visiva dei Modelli Generativi attraverso l'Apprendimento delle Preferenze Individuali
ViPer: Visual Personalization of Generative Models via Individual Preference Learning
July 24, 2024
Autori: Sogand Salehi, Mahdi Shafiei, Teresa Yeo, Roman Bachmann, Amir Zamir
cs.AI
Abstract
Utenti diversi trovano desiderabili immagini diverse generate per lo stesso prompt. Ciò dà origine alla generazione di immagini personalizzata, che implica la creazione di immagini allineate con le preferenze visive di un individuo. I modelli generativi attuali, tuttavia, non sono personalizzati, poiché sono ottimizzati per produrre risultati che piacciono a un pubblico ampio. Utilizzarli per generare immagini allineate con i singoli utenti si basa su un'ingegneria manuale iterativa dei prompt da parte dell'utente, che è inefficiente e indesiderabile. Proponiamo di personalizzare il processo di generazione delle immagini catturando prima le preferenze generiche dell'utente in un processo una tantum, invitandoli a commentare una piccola selezione di immagini, spiegando perché apprezzano o meno ciascuna. Sulla base di questi commenti, deduciamo gli attributi visivi strutturati che l'utente apprezza o meno, ovvero le sue preferenze visive, utilizzando un modello linguistico di grandi dimensioni. Questi attributi vengono utilizzati per guidare un modello di testo-immagine verso la produzione di immagini sintonizzate sulle preferenze visive del singolo utente. Attraverso una serie di studi sugli utenti e valutazioni guidate da modelli linguistici di grandi dimensioni, dimostriamo che il metodo proposto produce generazioni ben allineate con le preferenze visive dei singoli utenti.
English
Different users find different images generated for the same prompt
desirable. This gives rise to personalized image generation which involves
creating images aligned with an individual's visual preference. Current
generative models are, however, unpersonalized, as they are tuned to produce
outputs that appeal to a broad audience. Using them to generate images aligned
with individual users relies on iterative manual prompt engineering by the user
which is inefficient and undesirable. We propose to personalize the image
generation process by first capturing the generic preferences of the user in a
one-time process by inviting them to comment on a small selection of images,
explaining why they like or dislike each. Based on these comments, we infer a
user's structured liked and disliked visual attributes, i.e., their visual
preference, using a large language model. These attributes are used to guide a
text-to-image model toward producing images that are tuned towards the
individual user's visual preference. Through a series of user studies and large
language model guided evaluations, we demonstrate that the proposed method
results in generations that are well aligned with individual users' visual
preferences.