Personalizzazione della Generazione di Testo-Immagine in Base ai Gusti Individuali

Abstract

I modelli moderni di testo-immagine (T2I) generano visuali ad alta fedeltà ma rimangono indifferenti alle preferenze individuali degli utenti. Sebbene i modelli di reward esistenti ottimizzino per l'appeal umano "medio", non riescono a cogliere l'intrinseca soggettività del giudizio estetico. In questo lavoro, introduciamo un nuovo dataset e un framework predittivo, chiamato PAMELA, progettato per modellare le valutazioni di immagini personalizzate. Il nostro dataset comprende 70.000 valutazioni su 5.000 immagini diverse generate da modelli all'avanguardia (Flux 2 e Nano Banana). Ogni immagine è valutata da 15 utenti unici, fornendo una ricca distribuzione di preferenze soggettive attraverso domini come arte, design, moda e fotografia cinematografica. Sfruttando questi dati, proponiamo un modello di reward personalizzato addestrato congiuntamente sulle nostre annotazioni di alta qualità e su sottoinsiemi esistenti di valutazione estetica. Dimostriamo che il nostro modello predice il gradimento individuale con una precisione superiore a quella con cui la maggior parte dei metodi state-of-the-art attuali predice le preferenze a livello di popolazione. Utilizzando il nostro predittore personalizzato, dimostriamo come semplici metodi di ottimizzazione dei prompt possano essere utilizzati per orientare le generazioni verso le preferenze individuali degli utenti. I nostri risultati evidenziano l'importanza della qualità dei dati e della personalizzazione per gestire la soggettività delle preferenze utente. Rilasciamo il nostro dataset e modello per facilitare la ricerca standardizzata nell'allineamento T2I personalizzato e nella valutazione soggettiva della qualità visiva.

English

Modern text-to-image (T2I) models generate high-fidelity visuals but remain indifferent to individual user preferences. While existing reward models optimize for "average" human appeal, they fail to capture the inherent subjectivity of aesthetic judgment. In this work, we introduce a novel dataset and predictive framework, called PAMELA, designed to model personalized image evaluations. Our dataset comprises 70,000 ratings across 5,000 diverse images generated by state-of-the-art models (Flux 2 and Nano Banana). Each image is evaluated by 15 unique users, providing a rich distribution of subjective preferences across domains such as art, design, fashion, and cinematic photography. Leveraging this data, we propose a personalized reward model trained jointly on our high-quality annotations and existing aesthetic assessment subsets. We demonstrate that our model predicts individual liking with higher accuracy than the majority of current state-of-the-art methods predict population-level preferences. Using our personalized predictor, we demonstrate how simple prompt optimization methods can be used to steer generations towards individual user preferences. Our results highlight the importance of data quality and personalization to handle the subjectivity of user preferences. We release our dataset and model to facilitate standardized research in personalized T2I alignment and subjective visual quality assessment.

Personalizzazione della Generazione di Testo-Immagine in Base ai Gusti Individuali

Personalizing Text-to-Image Generation to Individual Taste

Abstract

Support