Personnalisation de la génération d'images à partir de texte selon les goûts individuels

Résumé

Les modèles modernes de génération d'image par texte (T2I) produisent des visuels de haute fidélité mais restent indifférents aux préférences individuelles des utilisateurs. Bien que les modèles de récompense existants optimisent pour un attrait humain « moyen », ils ne parviennent pas à capturer la subjectivité inhérente au jugement esthétique. Dans ce travail, nous présentons un nouvel ensemble de données et un cadre prédictif, appelé PAMELA, conçu pour modéliser les évaluations d'images personnalisées. Notre jeu de données comprend 70 000 évaluations portant sur 5 000 images diverses générées par des modèles de pointe (Flux 2 et Nano Banana). Chaque image est évaluée par 15 utilisateurs uniques, fournissant une riche distribution de préférences subjectives couvrant des domaines tels que l'art, le design, la mode et la photographie cinématographique. En exploitant ces données, nous proposons un modèle de récompense personnalisé entraîné conjointement sur nos annotations de haute qualité et sur des sous-ensembles existants d'évaluation esthétique. Nous démontrons que notre modèle prédit l'appréciation individuelle avec une précision supérieure à celle que la majorité des méthodes actuelles de pointe obtiennent pour prédire les préférences au niveau populationnel. En utilisant notre prédicteur personnalisé, nous montrons comment des méthodes simples d'optimisation de prompt peuvent être utilisées pour orienter les générations vers les préférences individuelles des utilisateurs. Nos résultats soulignent l'importance de la qualité des données et de la personnalisation pour prendre en compte la subjectivité des préférences utilisateur. Nous mettons à disposition notre jeu de données et notre modèle pour faciliter la recherche standardisée dans l'alignement T2I personnalisé et l'évaluation subjective de la qualité visuelle.

English

Modern text-to-image (T2I) models generate high-fidelity visuals but remain indifferent to individual user preferences. While existing reward models optimize for "average" human appeal, they fail to capture the inherent subjectivity of aesthetic judgment. In this work, we introduce a novel dataset and predictive framework, called PAMELA, designed to model personalized image evaluations. Our dataset comprises 70,000 ratings across 5,000 diverse images generated by state-of-the-art models (Flux 2 and Nano Banana). Each image is evaluated by 15 unique users, providing a rich distribution of subjective preferences across domains such as art, design, fashion, and cinematic photography. Leveraging this data, we propose a personalized reward model trained jointly on our high-quality annotations and existing aesthetic assessment subsets. We demonstrate that our model predicts individual liking with higher accuracy than the majority of current state-of-the-art methods predict population-level preferences. Using our personalized predictor, we demonstrate how simple prompt optimization methods can be used to steer generations towards individual user preferences. Our results highlight the importance of data quality and personalization to handle the subjectivity of user preferences. We release our dataset and model to facilitate standardized research in personalized T2I alignment and subjective visual quality assessment.

Personnalisation de la génération d'images à partir de texte selon les goûts individuels

Personalizing Text-to-Image Generation to Individual Taste

Résumé

Support