Personalisatie van tekst-naar-beeldgeneratie naar individuele smaak

Samenvatting

Moderne tekst-naar-beeldmodellen (T2I) genereren visueel hoogwaardige beelden, maar blijven onverschillig voor individuele gebruikersvoorkeuren. Hoewel bestaande beloningsmodellen optimaliseren voor een 'gemiddelde' menselijke aantrekkingskracht, slagen zij er niet in de inherente subjectiviteit van esthetisch oordeel te vatten. In dit werk introduceren we een nieuwe dataset en een voorspellend raamwerk, genaamd PAMELA, dat is ontworpen om gepersonaliseerde beeldbeoordelingen te modelleren. Onze dataset omvat 70.000 beoordelingen van 5.000 diverse beelden gegenereerd door state-of-the-art modellen (Flux 2 en Nano Banana). Elk beeld wordt beoordeeld door 15 unieke gebruikers, wat een rijke verdeling van subjectieve voorkeuren oplevert across domeinen zoals kunst, design, mode en cinematografische fotografie. Gebruikmakend van deze data stellen we een gepersonaliseerd beloningsmodel voor dat gezamenlijk wordt getraind op onze hoogwaardige annotaties en bestaande subsets voor esthetische beoordeling. We tonen aan dat ons model individuele voorkeuren met een hogere nauwkeurigheid voorspelt dan de meerderheid van de huidige state-of-the-art methoden die op populatieniveau voorspellen. Met behulp van onze gepersonaliseerde predictor demonstreren we hoe eenvoudige promptoptimalisatiemethoden kunnen worden gebruikt om gegenereerde beelden af te stemmen op individuele gebruikersvoorkeuren. Onze resultaten benadrukken het belang van data-kwaliteit en personalisatie om de subjectiviteit van gebruikersvoorkeuren te hanteren. We stellen onze dataset en model beschikbaar om gestandaardiseerd onderzoek te faciliteren naar gepersonaliseerde T2I-afstemming en subjectieve visuele kwaliteitsbeoordeling.

English

Modern text-to-image (T2I) models generate high-fidelity visuals but remain indifferent to individual user preferences. While existing reward models optimize for "average" human appeal, they fail to capture the inherent subjectivity of aesthetic judgment. In this work, we introduce a novel dataset and predictive framework, called PAMELA, designed to model personalized image evaluations. Our dataset comprises 70,000 ratings across 5,000 diverse images generated by state-of-the-art models (Flux 2 and Nano Banana). Each image is evaluated by 15 unique users, providing a rich distribution of subjective preferences across domains such as art, design, fashion, and cinematic photography. Leveraging this data, we propose a personalized reward model trained jointly on our high-quality annotations and existing aesthetic assessment subsets. We demonstrate that our model predicts individual liking with higher accuracy than the majority of current state-of-the-art methods predict population-level preferences. Using our personalized predictor, we demonstrate how simple prompt optimization methods can be used to steer generations towards individual user preferences. Our results highlight the importance of data quality and personalization to handle the subjectivity of user preferences. We release our dataset and model to facilitate standardized research in personalized T2I alignment and subjective visual quality assessment.

Personalisatie van tekst-naar-beeldgeneratie naar individuele smaak

Personalizing Text-to-Image Generation to Individual Taste

Samenvatting

Support