ViPer: Personalização Visual de Modelos Generativos através da Aprendizagem de Preferências Individuais
ViPer: Visual Personalization of Generative Models via Individual Preference Learning
July 24, 2024
Autores: Sogand Salehi, Mahdi Shafiei, Teresa Yeo, Roman Bachmann, Amir Zamir
cs.AI
Resumo
Diferentes usuários consideram desejáveis imagens diferentes geradas a partir do mesmo estímulo. Isso dá origem à geração de imagens personalizadas, que envolve a criação de imagens alinhadas com a preferência visual de um indivíduo. Os modelos generativos atuais, no entanto, são impessoais, pois são ajustados para produzir saídas que agradam a um público amplo. Utilizá-los para gerar imagens alinhadas com usuários individuais depende de um processo iterativo de engenharia de estímulos manuais pelo usuário, o que é ineficiente e indesejável. Propomos personalizar o processo de geração de imagens capturando primeiro as preferências genéricas do usuário em um processo único, convidando-os a comentar sobre uma pequena seleção de imagens, explicando por que gostam ou não de cada uma. Com base nesses comentários, inferimos os atributos visuais estruturados gostados e não gostados de um usuário, ou seja, suas preferências visuais, usando um grande modelo de linguagem. Esses atributos são usados para orientar um modelo de texto para imagem na produção de imagens ajustadas à preferência visual do usuário individual. Através de uma série de estudos de usuários e avaliações orientadas por um grande modelo de linguagem, demonstramos que o método proposto resulta em gerações bem alinhadas com as preferências visuais dos usuários individuais.
English
Different users find different images generated for the same prompt
desirable. This gives rise to personalized image generation which involves
creating images aligned with an individual's visual preference. Current
generative models are, however, unpersonalized, as they are tuned to produce
outputs that appeal to a broad audience. Using them to generate images aligned
with individual users relies on iterative manual prompt engineering by the user
which is inefficient and undesirable. We propose to personalize the image
generation process by first capturing the generic preferences of the user in a
one-time process by inviting them to comment on a small selection of images,
explaining why they like or dislike each. Based on these comments, we infer a
user's structured liked and disliked visual attributes, i.e., their visual
preference, using a large language model. These attributes are used to guide a
text-to-image model toward producing images that are tuned towards the
individual user's visual preference. Through a series of user studies and large
language model guided evaluations, we demonstrate that the proposed method
results in generations that are well aligned with individual users' visual
preferences.Summary
AI-Generated Summary