PersonaFeedback : Un Benchmark Annoté à Grande Échelle pour la Personnalisation
PersonaFeedback: A Large-scale Human-annotated Benchmark For Personalization
June 15, 2025
Auteurs: Meiling Tao, Chenghao Zhu, Dongyi Ding, Tiannan Wang, Yuchen Eleanor Jiang, Wangchunshu Zhou
cs.AI
Résumé
Avec l'amélioration rapide des capacités générales des LLM (modèles de langage de grande taille), la personnalisation des LLM, c'est-à-dire la manière de construire des systèmes LLM capables de générer des réponses ou des services personnalisés adaptés à des personas utilisateurs distinctes, est devenue un problème de recherche et d'ingénierie de plus en plus important. Cependant, contrairement aux nombreux nouveaux benchmarks exigeants publiés pour évaluer les capacités générales/de raisonnement, le manque de benchmarks de haute qualité pour évaluer la personnalisation des LLM entrave grandement les progrès dans ce domaine. Pour remédier à cela, nous introduisons PersonaFeedback, un nouveau benchmark qui évalue directement la capacité des LLM à fournir des réponses personnalisées en fonction de personas utilisateurs prédéfinies et de requêtes. Contrairement aux benchmarks existants qui nécessitent que les modèles infèrent des personas utilisateurs implicites à partir d'interactions historiques, PersonaFeedback dissocie l'inférence de la persona de la personnalisation, en se concentrant sur l'évaluation de la capacité du modèle à générer des réponses adaptées à des personas explicites. PersonaFeedback comprend 8298 cas de test annotés par des humains, classés en niveaux facile, moyen et difficile en fonction de la complexité contextuelle des personas utilisateurs et de la difficulté à distinguer les différences subtiles entre deux réponses personnalisées. Nous menons des évaluations approfondies sur une large gamme de modèles. Les résultats empiriques révèlent que même les LLM de pointe capables de résoudre des tâches de raisonnement complexes du monde réel peuvent échouer au niveau difficile de PersonaFeedback, où même les évaluateurs humains peuvent trouver les distinctions difficiles. De plus, nous effectuons une analyse approfondie des modes d'échec à travers différents types de systèmes, démontrant que le cadre actuel de récupération augmentée ne doit pas être considéré comme une solution de facto pour les tâches de personnalisation. Toutes les données du benchmark, les protocoles d'annotation et le pipeline d'évaluation seront rendus publics pour faciliter les recherches futures sur la personnalisation des LLM.
English
With the rapid improvement in the general capabilities of LLMs, LLM
personalization, i.e., how to build LLM systems that can generate personalized
responses or services that are tailored to distinct user personas, has become
an increasingly important research and engineering problem. However, unlike
many new challenging benchmarks being released for evaluating the
general/reasoning capabilities, the lack of high-quality benchmarks for
evaluating LLM personalization greatly hinders progress in this field. To
address this, we introduce PersonaFeedback, a new benchmark that directly
evaluates LLMs' ability to provide personalized responses given pre-defined
user personas and queries. Unlike existing benchmarks that require models to
infer implicit user personas from historical interactions, PersonaFeedback
decouples persona inference from personalization, focusing on evaluating the
model's ability to generate responses tailored to explicit personas.
PersonaFeedback consists of 8298 human-annotated test cases, which are
categorized into easy, medium, and hard tiers based on the contextual
complexity of the user personas and the difficulty in distinguishing subtle
differences between two personalized responses. We conduct comprehensive
evaluations across a wide range of models. The empirical results reveal that
even state-of-the-art LLMs that can solve complex real-world reasoning tasks
could fall short on the hard tier of PersonaFeedback where even human
evaluators may find the distinctions challenging. Furthermore, we conduct an
in-depth analysis of failure modes across various types of systems,
demonstrating that the current retrieval-augmented framework should not be seen
as a de facto solution for personalization tasks. All benchmark data,
annotation protocols, and the evaluation pipeline will be publicly available to
facilitate future research on LLM personalization.