LikeBench: Het evalueren van subjectieve aantrekkelijkheid in LLM's voor personalisatie
LikeBench: Evaluating Subjective Likability in LLMs for Personalization
December 15, 2025
Auteurs: Md Awsafur Rahman, Adam Gabrys, Doug Kang, Jingjing Sun, Tian Tan, Ashwin Chandramouli
cs.AI
Samenvatting
Een gepersonaliseerd LLM moet gebruikersfeiten onthouden, deze correct toepassen en zich in de loop van de tijd aanpassen om reacties te geven die de gebruiker prefereert. Bestaande benchmarks voor LLM-personalisatie zijn grotendeels gericht op twee assen: het nauwkeurig onthouden van gebruikersinformatie en het nauwkeurig toepassen van onthouden informatie in downstream-taken. Wij beargumenteren dat een derde as, *likability* (aantrekkelijkheid), zowel subjectief als centraal is voor de gebruikerservaring, maar ondergemeten wordt door huidige benchmarks. Om likability holistisch te meten, introduceren we LikeBench, een multi-sessie, dynamisch evaluatieraamwerk dat likability over meerdere dimensies meet door te kijken in hoeverre een LLM zich in de loop van de tijd kan aanpassen aan de voorkeuren van een gebruiker om aantrekkelijkere reacties te geven. In LikeBench voeren de LLM's gesprekken met een gesimuleerde gebruiker en leren voorkeuren uitsluitend uit de lopende dialoog. Naarmate de interactie vordert, proberen modellen zich aan te passen aan reacties, en na elke zet worden ze geëvalueerd op likability over zeven dimensies door dezelfde gesimuleerde gebruiker. Voor zover wij weten, zijn wij de eersten die likability opdelen in meerdere diagnostische metrieken: emotionele aanpassing, formaliteitsafstemming, kennisaanpassing, referentiebegrip, gesprekslengte-afstemming, humor-afstemming en callback, wat het gemakkelijker maakt om te pinpointen waar een model tekortschiet. Om de gesimuleerde gebruiker realistischer en onderscheidender te maken, gebruikt LikeBench fijnmazige, psychologisch onderbouwde beschrijvende persona's in plaats van de grove op hoge/lage eigenschapsscores gebaseerde persona's die in eerder werk werden gebruikt. Onze benchmark laat zien dat sterke geheugenprestaties geen hoge likability garanderen: DeepSeek R1, met een lagere geheugennauwkeurigheid (86%, 17 feiten/profiel), presteerde 28% beter op de likability-score dan Qwen3, ondanks de hogere geheugennauwkeurigheid van Qwen3 (93%, 43 feiten/profiel). Zelfs SOTA-modellen zoals GPT-5 passen zich goed aan in korte uitwisselingen, maar tonen slechts beperkte robuustheid in langere, meer rumoerige interacties.
English
A personalized LLM should remember user facts, apply them correctly, and adapt over time to provide responses that the user prefers. Existing LLM personalization benchmarks are largely centered on two axes: accurately recalling user information and accurately applying remembered information in downstream tasks. We argue that a third axis, likability, is both subjective and central to user experience, yet under-measured by current benchmarks. To measure likability holistically, we introduce LikeBench, a multi-session, dynamic evaluation framework that measures likability across multiple dimensions by how much an LLM can adapt over time to a user's preferences to provide more likable responses. In LikeBench, the LLMs engage in conversation with a simulated user and learn preferences only from the ongoing dialogue. As the interaction unfolds, models try to adapt to responses, and after each turn, they are evaluated for likability across seven dimensions by the same simulated user. To the best of our knowledge, we are the first to decompose likability into multiple diagnostic metrics: emotional adaptation, formality matching, knowledge adaptation, reference understanding, conversation length fit, humor fit, and callback, which makes it easier to pinpoint where a model falls short. To make the simulated user more realistic and discriminative, LikeBench uses fine-grained, psychologically grounded descriptive personas rather than the coarse high/low trait rating based personas used in prior work. Our benchmark shows that strong memory performance does not guarantee high likability: DeepSeek R1, with lower memory accuracy (86%, 17 facts/profile), outperformed Qwen3 by 28% on likability score despite Qwen3's higher memory accuracy (93%, 43 facts/profile). Even SOTA models like GPT-5 adapt well in short exchanges but show only limited robustness in longer, noisier interactions.