ViPer: Personalizzazione Visiva dei Modelli Generativi attraverso l'Apprendimento delle Preferenze Individuali

Abstract

Utenti diversi trovano desiderabili immagini diverse generate per lo stesso prompt. Ciò dà origine alla generazione di immagini personalizzata, che implica la creazione di immagini allineate con le preferenze visive di un individuo. I modelli generativi attuali, tuttavia, non sono personalizzati, poiché sono ottimizzati per produrre risultati che piacciono a un pubblico ampio. Utilizzarli per generare immagini allineate con i singoli utenti si basa su un'ingegneria manuale iterativa dei prompt da parte dell'utente, che è inefficiente e indesiderabile. Proponiamo di personalizzare il processo di generazione delle immagini catturando prima le preferenze generiche dell'utente in un processo una tantum, invitandoli a commentare una piccola selezione di immagini, spiegando perché apprezzano o meno ciascuna. Sulla base di questi commenti, deduciamo gli attributi visivi strutturati che l'utente apprezza o meno, ovvero le sue preferenze visive, utilizzando un modello linguistico di grandi dimensioni. Questi attributi vengono utilizzati per guidare un modello di testo-immagine verso la produzione di immagini sintonizzate sulle preferenze visive del singolo utente. Attraverso una serie di studi sugli utenti e valutazioni guidate da modelli linguistici di grandi dimensioni, dimostriamo che il metodo proposto produce generazioni ben allineate con le preferenze visive dei singoli utenti.

English

Different users find different images generated for the same prompt desirable. This gives rise to personalized image generation which involves creating images aligned with an individual's visual preference. Current generative models are, however, unpersonalized, as they are tuned to produce outputs that appeal to a broad audience. Using them to generate images aligned with individual users relies on iterative manual prompt engineering by the user which is inefficient and undesirable. We propose to personalize the image generation process by first capturing the generic preferences of the user in a one-time process by inviting them to comment on a small selection of images, explaining why they like or dislike each. Based on these comments, we infer a user's structured liked and disliked visual attributes, i.e., their visual preference, using a large language model. These attributes are used to guide a text-to-image model toward producing images that are tuned towards the individual user's visual preference. Through a series of user studies and large language model guided evaluations, we demonstrate that the proposed method results in generations that are well aligned with individual users' visual preferences.

ViPer: Personalizzazione Visiva dei Modelli Generativi attraverso l'Apprendimento delle Preferenze Individuali

ViPer: Visual Personalization of Generative Models via Individual Preference Learning

Abstract

Support