LikeBench : Évaluation de l'appréciation subjective dans les LLM pour la personnalisation
LikeBench: Evaluating Subjective Likability in LLMs for Personalization
December 15, 2025
papers.authors: Md Awsafur Rahman, Adam Gabrys, Doug Kang, Jingjing Sun, Tian Tan, Ashwin Chandramouli
cs.AI
papers.abstract
Un LLM personnalisé doit mémoriser les informations utilisateur, les appliquer correctement et s'adapter dans le temps pour fournir des réponses correspondant aux préférences de l'utilisateur. Les benchmarks existants pour la personnalisation des LLM se concentrent principalement sur deux axes : le rappel précis des informations utilisateur et l'application correcte des informations mémorisées dans des tâches en aval. Nous soutenons qu'un troisième axe, l'agrément (likability), à la fois subjectif et central pour l'expérience utilisateur, est sous-mesuré par les benchmarks actuels.
Pour mesurer l'agrément de manière holistique, nous présentons LikeBench, un cadre d'évaluation dynamique et multi-sessions qui mesure l'agrément selon plusieurs dimensions en évaluant dans quelle mesure un LLM peut s'adapter au fil du temps aux préférences d'un utilisateur pour fournir des réponses plus appréciables. Dans LikeBench, les LLM conversent avec un utilisateur simulé et n'apprennent les préférences qu'à partir du dialogue en cours. Au fur et à mesure que l'interaction progresse, les modèles tentent de s'adapter, et après chaque tour de parole, leur niveau d'agrément est évalué par le même utilisateur simulé selon sept dimensions. À notre connaissance, nous sommes les premiers à décomposer l'agrément en plusieurs métriques diagnostiques : l'adaptation émotionnelle, l'ajustement du niveau de formalité, l'adaptation des connaissances, la compréhension des références, l'adéquation de la longueur des réponses, l'adéquation de l'humour et l'utilisation de rappels (callbacks), ce qui facilite l'identification des points faibles d'un modèle.
Pour rendre l'utilisateur simulé plus réaliste et discriminant, LikeBench utilise des personas descriptifs, fins et fondés sur des principes psychologiques, plutôt que les personas basés sur des évaluations de traits grossiers (élevé/faible) utilisés dans les travaux antérieurs. Notre benchmark montre qu'une forte performance mnésique ne garantit pas un haut niveau d'agrément : DeepSeek R1, avec une précision de mémorisation inférieure (86%, 17 faits/profil), a surpassé Qwen3 de 28% sur le score d'agrément, bien que Qwen3 ait une meilleure précision mnésique (93%, 43 faits/profil). Même les modèles à la pointe (SOTA) comme GPT-5 s'adaptent bien dans de courts échanges mais ne montrent qu'une robustesse limitée dans des interactions plus longues et bruitées.
English
A personalized LLM should remember user facts, apply them correctly, and adapt over time to provide responses that the user prefers. Existing LLM personalization benchmarks are largely centered on two axes: accurately recalling user information and accurately applying remembered information in downstream tasks. We argue that a third axis, likability, is both subjective and central to user experience, yet under-measured by current benchmarks. To measure likability holistically, we introduce LikeBench, a multi-session, dynamic evaluation framework that measures likability across multiple dimensions by how much an LLM can adapt over time to a user's preferences to provide more likable responses. In LikeBench, the LLMs engage in conversation with a simulated user and learn preferences only from the ongoing dialogue. As the interaction unfolds, models try to adapt to responses, and after each turn, they are evaluated for likability across seven dimensions by the same simulated user. To the best of our knowledge, we are the first to decompose likability into multiple diagnostic metrics: emotional adaptation, formality matching, knowledge adaptation, reference understanding, conversation length fit, humor fit, and callback, which makes it easier to pinpoint where a model falls short. To make the simulated user more realistic and discriminative, LikeBench uses fine-grained, psychologically grounded descriptive personas rather than the coarse high/low trait rating based personas used in prior work. Our benchmark shows that strong memory performance does not guarantee high likability: DeepSeek R1, with lower memory accuracy (86%, 17 facts/profile), outperformed Qwen3 by 28% on likability score despite Qwen3's higher memory accuracy (93%, 43 facts/profile). Even SOTA models like GPT-5 adapt well in short exchanges but show only limited robustness in longer, noisier interactions.