Personalisierung der Bildgenerierung aus Text nach individuellem Geschmack

Zusammenfassung

Moderne Text-to-Image-Modelle (T2I) erzeugen hochwertige visuelle Inhalte, bleiben jedoch gegenüber individuellen Benutzerpräferenzen indifferent. Während bestehende Belohnungsmodelle auf den „durchschnittlichen“ menschlichen Geschmack optimieren, erfassen sie die inhärente Subjektivität ästhetischer Bewertungen nicht. In dieser Arbeit stellen wir einen neuartigen Datensatz und einen prädiktiven Rahmen namens PAMELA vor, der zur Modellierung personalisierter Bildbewertungen entwickelt wurde. Unser Datensatz umfasst 70.000 Bewertungen für 5.000 verschiedene Bilder, die von modernsten Modellen (Flux 2 und Nano Banana) generiert wurden. Jedes Bild wird von 15 verschiedenen Nutzern bewertet, was eine umfassende Verteilung subjektiver Präferenzen in Bereichen wie Kunst, Design, Mode und cinematografischer Fotografie liefert. Aufbauend auf diesen Daten schlagen wir ein personalisiertes Belohnungsmodell vor, das gemeinsam mit unseren hochwertigen Annotationen und bestehenden Teilmengen zur ästhetischen Bewertung trainiert wird. Wir zeigen, dass unser Modell individuelle Vorlieben genauer vorhersagt als die Mehrheit der aktuellen State-of-the-Art-Methoden, die auf Populationsebene optimieren. Mithilfe unseres personalisierten Prädiktors demonstrieren wir, wie einfache Prompt-Optimierungsmethoden eingesetzt werden können, um Bildgenerierungen an die Präferenzen einzelner Nutzer anzupassen. Unsere Ergebnisse unterstreichen die Bedeutung von Datenqualität und Personalisierung, um die Subjektivität von Benutzerpräferenzen zu berücksichtigen. Wir veröffentlichen unseren Datensatz und unser Modell, um standardisierte Forschung im Bereich der personalisierten T2I-Abgleichung und der subjektiven visuellen Qualitätsbewertung zu ermöglichen.

English

Modern text-to-image (T2I) models generate high-fidelity visuals but remain indifferent to individual user preferences. While existing reward models optimize for "average" human appeal, they fail to capture the inherent subjectivity of aesthetic judgment. In this work, we introduce a novel dataset and predictive framework, called PAMELA, designed to model personalized image evaluations. Our dataset comprises 70,000 ratings across 5,000 diverse images generated by state-of-the-art models (Flux 2 and Nano Banana). Each image is evaluated by 15 unique users, providing a rich distribution of subjective preferences across domains such as art, design, fashion, and cinematic photography. Leveraging this data, we propose a personalized reward model trained jointly on our high-quality annotations and existing aesthetic assessment subsets. We demonstrate that our model predicts individual liking with higher accuracy than the majority of current state-of-the-art methods predict population-level preferences. Using our personalized predictor, we demonstrate how simple prompt optimization methods can be used to steer generations towards individual user preferences. Our results highlight the importance of data quality and personalization to handle the subjectivity of user preferences. We release our dataset and model to facilitate standardized research in personalized T2I alignment and subjective visual quality assessment.

Personalisierung der Bildgenerierung aus Text nach individuellem Geschmack

Personalizing Text-to-Image Generation to Individual Taste

Zusammenfassung

Support