Персонализация генерации изображений по тексту в соответствии с индивидуальными предпочтениями

Аннотация

Современные модели преобразования текста в изображение (T2I) генерируют визуальный контент высокой точности, но остаются безразличными к индивидуальным предпочтениям пользователей. Хотя существующие модели вознаграждения оптимизируются под «усреднённые» человеческие предпочтения, они не учитывают присущую эстетическим оценкам субъективность. В данной работе мы представляем новый набор данных и прогностическую структуру под названием PAMELA, предназначенные для моделирования персонализированных оценок изображений. Наш набор данных включает 70 000 оценок для 5 000 разнообразных изображений, сгенерированных передовыми моделями (Flux 2 и Nano Banana). Каждое изображение оценивается 15 уникальными пользователями, что обеспечивает богатое распределение субъективных предпочтений в таких областях, как искусство, дизайн, мода и кинематографическая фотография. Используя эти данные, мы предлагаем персонализированную модель вознаграждения, обученную совместно на наших высококачественных аннотациях и существующих подмножествах эстетической оценки. Мы демонстрируем, что наша модель предсказывает индивидуальные предпочтения с более высокой точностью, чем большинство современных методов предсказывают предпочтения на уровне популяции. Используя наш персонализированный предиктор, мы показываем, как простые методы оптимизации промптов могут быть использованы для направления генерации в сторону индивидуальных предпочтений пользователя. Наши результаты подчёркивают важность качества данных и персонализации для учёта субъективности пользовательских предпочтений. Мы публикуем наш набор данных и модель для содействия стандартизированным исследованиям в области персонализированного согласования T2I и оценки субъективного визуального качества.

English

Modern text-to-image (T2I) models generate high-fidelity visuals but remain indifferent to individual user preferences. While existing reward models optimize for "average" human appeal, they fail to capture the inherent subjectivity of aesthetic judgment. In this work, we introduce a novel dataset and predictive framework, called PAMELA, designed to model personalized image evaluations. Our dataset comprises 70,000 ratings across 5,000 diverse images generated by state-of-the-art models (Flux 2 and Nano Banana). Each image is evaluated by 15 unique users, providing a rich distribution of subjective preferences across domains such as art, design, fashion, and cinematic photography. Leveraging this data, we propose a personalized reward model trained jointly on our high-quality annotations and existing aesthetic assessment subsets. We demonstrate that our model predicts individual liking with higher accuracy than the majority of current state-of-the-art methods predict population-level preferences. Using our personalized predictor, we demonstrate how simple prompt optimization methods can be used to steer generations towards individual user preferences. Our results highlight the importance of data quality and personalization to handle the subjectivity of user preferences. We release our dataset and model to facilitate standardized research in personalized T2I alignment and subjective visual quality assessment.

Персонализация генерации изображений по тексту в соответствии с индивидуальными предпочтениями

Personalizing Text-to-Image Generation to Individual Taste

Аннотация

Support