PersonaFeedback: Een grootschalige, door mensen geannoteerde benchmark voor personalisatie
PersonaFeedback: A Large-scale Human-annotated Benchmark For Personalization
June 15, 2025
Auteurs: Meiling Tao, Chenghao Zhu, Dongyi Ding, Tiannan Wang, Yuchen Eleanor Jiang, Wangchunshu Zhou
cs.AI
Samenvatting
Met de snelle verbetering van de algemene capaciteiten van LLM's is LLM-personalisatie, d.w.z. hoe LLM-systemen kunnen worden gebouwd die gepersonaliseerde reacties of diensten kunnen genereren die zijn afgestemd op verschillende gebruikerspersona's, een steeds belangrijker onderzoeks- en technisch probleem geworden. In tegenstelling tot de vele nieuwe uitdagende benchmarks die worden vrijgegeven voor het evalueren van de algemene/redeneercapaciteiten, belemmert het gebrek aan hoogwaardige benchmarks voor het evalueren van LLM-personalisatie de vooruitgang op dit gebied aanzienlijk. Om dit aan te pakken, introduceren we PersonaFeedback, een nieuwe benchmark die direct de mogelijkheid van LLM's evalueert om gepersonaliseerde reacties te geven op basis van vooraf gedefinieerde gebruikerspersona's en vragen. In tegenstelling tot bestaande benchmarks die modellen vereisen om impliciete gebruikerspersona's af te leiden uit historische interacties, ontkoppelt PersonaFeedback persona-inferentie van personalisatie, waarbij de focus ligt op het evalueren van het vermogen van het model om reacties te genereren die zijn afgestemd op expliciete persona's. PersonaFeedback bestaat uit 8298 door mensen geannoteerde testgevallen, die zijn gecategoriseerd in eenvoudige, middelmatige en moeilijke niveaus op basis van de contextuele complexiteit van de gebruikerspersona's en de moeilijkheid om subtiele verschillen tussen twee gepersonaliseerde reacties te onderscheiden. We voeren uitgebreide evaluaties uit over een breed scala aan modellen. De empirische resultaten laten zien dat zelfs state-of-the-art LLM's die complexe real-world redeneertaken kunnen oplossen tekort kunnen schieten op het moeilijke niveau van PersonaFeedback, waar zelfs menselijke beoordelaars de onderscheidingen uitdagend kunnen vinden. Bovendien voeren we een diepgaande analyse uit van faalmodi over verschillende soorten systemen, waarbij wordt aangetoond dat het huidige retrieval-augmented framework niet als een de facto oplossing voor personalisatietaken moet worden gezien. Alle benchmarkgegevens, annotatieprotocollen en de evaluatiepipeline zullen openbaar beschikbaar worden gesteld om toekomstig onderzoek naar LLM-personalisatie te faciliteren.
English
With the rapid improvement in the general capabilities of LLMs, LLM
personalization, i.e., how to build LLM systems that can generate personalized
responses or services that are tailored to distinct user personas, has become
an increasingly important research and engineering problem. However, unlike
many new challenging benchmarks being released for evaluating the
general/reasoning capabilities, the lack of high-quality benchmarks for
evaluating LLM personalization greatly hinders progress in this field. To
address this, we introduce PersonaFeedback, a new benchmark that directly
evaluates LLMs' ability to provide personalized responses given pre-defined
user personas and queries. Unlike existing benchmarks that require models to
infer implicit user personas from historical interactions, PersonaFeedback
decouples persona inference from personalization, focusing on evaluating the
model's ability to generate responses tailored to explicit personas.
PersonaFeedback consists of 8298 human-annotated test cases, which are
categorized into easy, medium, and hard tiers based on the contextual
complexity of the user personas and the difficulty in distinguishing subtle
differences between two personalized responses. We conduct comprehensive
evaluations across a wide range of models. The empirical results reveal that
even state-of-the-art LLMs that can solve complex real-world reasoning tasks
could fall short on the hard tier of PersonaFeedback where even human
evaluators may find the distinctions challenging. Furthermore, we conduct an
in-depth analysis of failure modes across various types of systems,
demonstrating that the current retrieval-augmented framework should not be seen
as a de facto solution for personalization tasks. All benchmark data,
annotation protocols, and the evaluation pipeline will be publicly available to
facilitate future research on LLM personalization.