Personalização da Geração de Texto para Imagem de Acordo com o Gosto Individual

Resumo

Os modelos modernos de texto para imagem (T2I) geram visuais de alta fidelidade, mas permanecem indiferentes às preferências individuais do utilizador. Embora os modelos de recompensa existentes otimizem para o apelo humano "médio", eles não conseguem capturar a subjectividade inerente ao julgamento estético. Neste trabalho, introduzimos um novo conjunto de dados e uma estrutura preditiva, denominada PAMELA, concebida para modelar avaliações de imagem personalizadas. O nosso conjunto de dados compreende 70.000 classificações de 5.000 imagens diversas geradas por modelos de última geração (Flux 2 e Nano Banana). Cada imagem é avaliada por 15 utilizadores únicos, fornecendo uma distribuição rica de preferências subjectivas em domínios como arte, design, moda e fotografia cinematográfica. Aproveitando estes dados, propomos um modelo de recompensa personalizado treinado em conjunto com as nossas anotações de alta qualidade e subconjuntos existentes de avaliação estética. Demonstramos que o nosso modelo prevê o gosto individual com maior precisão do que a maioria dos métodos atuais de última geração prevê as preferências a nível populacional. Utilizando o nosso preditor personalizado, demonstramos como métodos simples de optimização de *prompts* podem ser usados para orientar as gerações para as preferências individuais do utilizador. Os nossos resultados destacam a importância da qualidade dos dados e da personalização para lidar com a subjectividade das preferências do utilizador. Disponibilizamos o nosso conjunto de dados e modelo para facilitar a investigação padronizada no alinhamento personalizado de T2I e na avaliação subjectiva da qualidade visual.

English

Modern text-to-image (T2I) models generate high-fidelity visuals but remain indifferent to individual user preferences. While existing reward models optimize for "average" human appeal, they fail to capture the inherent subjectivity of aesthetic judgment. In this work, we introduce a novel dataset and predictive framework, called PAMELA, designed to model personalized image evaluations. Our dataset comprises 70,000 ratings across 5,000 diverse images generated by state-of-the-art models (Flux 2 and Nano Banana). Each image is evaluated by 15 unique users, providing a rich distribution of subjective preferences across domains such as art, design, fashion, and cinematic photography. Leveraging this data, we propose a personalized reward model trained jointly on our high-quality annotations and existing aesthetic assessment subsets. We demonstrate that our model predicts individual liking with higher accuracy than the majority of current state-of-the-art methods predict population-level preferences. Using our personalized predictor, we demonstrate how simple prompt optimization methods can be used to steer generations towards individual user preferences. Our results highlight the importance of data quality and personalization to handle the subjectivity of user preferences. We release our dataset and model to facilitate standardized research in personalized T2I alignment and subjective visual quality assessment.

Personalização da Geração de Texto para Imagem de Acordo com o Gosto Individual

Personalizing Text-to-Image Generation to Individual Taste

Resumo

Support