Personalización de la Generación de Imágenes a partir de Texto según el Gusto Individual

Resumen

Los modelos modernos de texto a imagen (T2I) generan visuales de alta fidelidad pero permanecen indiferentes a las preferencias individuales de los usuarios. Si bien los modelos de recompensa existentes optimizan para el atractivo humano "promedio", no logran capturar la inherente subjetividad del juicio estético. En este trabajo, presentamos un novedoso conjunto de datos y marco predictivo, denominado PAMELA, diseñado para modelar evaluaciones de imágenes personalizadas. Nuestro conjunto de datos comprende 70,000 valoraciones de 5,000 imágenes diversas generadas por modelos de vanguardia (Flux 2 y Nano Banana). Cada imagen es evaluada por 15 usuarios únicos, proporcionando una distribución rica de preferencias subjetivas en dominios como arte, diseño, moda y fotografía cinematográfica. Aprovechando estos datos, proponemos un modelo de recompensa personalizado entrenado conjuntamente con nuestras anotaciones de alta calidad y subconjuntos existentes de evaluación estética. Demostramos que nuestro modelo predice el gusto individual con mayor precisión que la mayoría de los métodos actuales de vanguardia predicen las preferencias a nivel poblacional. Utilizando nuestro predictor personalizado, demostramos cómo métodos simples de optimización de prompts pueden usarse para dirigir las generaciones hacia las preferencias individuales del usuario. Nuestros resultados destacan la importancia de la calidad de los datos y la personalización para manejar la subjetividad de las preferencias de los usuarios. Publicamos nuestro conjunto de datos y modelo para facilitar la investigación estandarizada en alineación T2I personalizada y evaluación de calidad visual subjetiva.

English

Modern text-to-image (T2I) models generate high-fidelity visuals but remain indifferent to individual user preferences. While existing reward models optimize for "average" human appeal, they fail to capture the inherent subjectivity of aesthetic judgment. In this work, we introduce a novel dataset and predictive framework, called PAMELA, designed to model personalized image evaluations. Our dataset comprises 70,000 ratings across 5,000 diverse images generated by state-of-the-art models (Flux 2 and Nano Banana). Each image is evaluated by 15 unique users, providing a rich distribution of subjective preferences across domains such as art, design, fashion, and cinematic photography. Leveraging this data, we propose a personalized reward model trained jointly on our high-quality annotations and existing aesthetic assessment subsets. We demonstrate that our model predicts individual liking with higher accuracy than the majority of current state-of-the-art methods predict population-level preferences. Using our personalized predictor, we demonstrate how simple prompt optimization methods can be used to steer generations towards individual user preferences. Our results highlight the importance of data quality and personalization to handle the subjectivity of user preferences. We release our dataset and model to facilitate standardized research in personalized T2I alignment and subjective visual quality assessment.

Personalización de la Generación de Imágenes a partir de Texto según el Gusto Individual

Personalizing Text-to-Image Generation to Individual Taste

Resumen

Support