LikeBench: Bewertung der subjektiven Sympathie in LLMs für Personalisierung
LikeBench: Evaluating Subjective Likability in LLMs for Personalization
December 15, 2025
papers.authors: Md Awsafur Rahman, Adam Gabrys, Doug Kang, Jingjing Sun, Tian Tan, Ashwin Chandramouli
cs.AI
papers.abstract
Ein personalisiertes LLM sollte Nutzerfakten speichern, korrekt anwenden und sich im Laufe der Zeit anpassen, um Antworten zu liefern, die der Nutzer bevorzugt. Bestehende Benchmarks für die LLM-Personalisierung konzentrieren sich weitgehend auf zwei Achsen: die präzise Erinnerung von Nutzerinformationen und die korrekte Anwendung der gespeicherten Informationen in nachgelagerten Aufgaben. Wir vertreten die Auffassung, dass eine dritte Achse – die Sympathie (Likability) – sowohl subjektiv als auch zentral für das Nutzererlebnis ist, jedoch von aktuellen Benchmarks unzureichend erfasst wird. Um Sympathie ganzheitlich zu messen, führen wir LikeBench ein, einen mehrsitzigen, dynamischen Evaluierungsrahmen, der Sympathie über mehrere Dimensionen hinweg misst, indem er erfasst, inwieweit sich ein LLM im Laufe der Zeit an die Präferenzen eines Nutzers anpassen kann, um sympathischere Antworten zu geben. In LikeBench führen die LLMs Konversationen mit einem simulierten Nutzer und lernen Präferenzen ausschließlich aus dem laufenden Dialog. Während die Interaktion fortschreitet, versuchen die Modelle, sich an die Antworten anzupassen, und nach jedem Zug werden sie vom selben simulierten Nutzer in sieben Dimensionen auf Sympathie bewertet. Nach unserem Wissenstand sind wir die Ersten, die Sympathie in mehrere diagnostische Metriken zerlegen: emotionale Anpassung, Formality-Abgleich, Wissensanpassung, Referenzverständnis, Passgenauigkeit der Gesprächslänge, Humor-Passung und Callback (Rückbezug), was es erleichtert, Schwachstellen eines Modells zu identifizieren. Um den simulierten Nutzer realistischer und diskriminativer zu gestalten, verwendet LikeBench feinkörnige, psychologisch fundierte descriptive Personas anstelle der grob auf High/Low-Merkmalen basierenden Bewertungspersonas aus früheren Arbeiten. Unser Benchmark zeigt, dass eine starke Gedächtnisleistung keine hohe Sympathie garantiert: DeepSeek R1 mit geringerer Gedächtnisgenauigkeit (86 %, 17 Fakten/Profil) übertraf Qwen3 bei der Sympathiebewertung um 28 %, obwohl Qwen3 eine höhere Gedächtnisgenauigkeit (93 %, 43 Fakten/Profil) aufwies. Selbst SOTA-Modelle wie GPT-5 passen sich in kurzen Austauschen gut an, zeigen aber nur begrenzte Robustheit in längeren, verrauschteren Interaktionen.
English
A personalized LLM should remember user facts, apply them correctly, and adapt over time to provide responses that the user prefers. Existing LLM personalization benchmarks are largely centered on two axes: accurately recalling user information and accurately applying remembered information in downstream tasks. We argue that a third axis, likability, is both subjective and central to user experience, yet under-measured by current benchmarks. To measure likability holistically, we introduce LikeBench, a multi-session, dynamic evaluation framework that measures likability across multiple dimensions by how much an LLM can adapt over time to a user's preferences to provide more likable responses. In LikeBench, the LLMs engage in conversation with a simulated user and learn preferences only from the ongoing dialogue. As the interaction unfolds, models try to adapt to responses, and after each turn, they are evaluated for likability across seven dimensions by the same simulated user. To the best of our knowledge, we are the first to decompose likability into multiple diagnostic metrics: emotional adaptation, formality matching, knowledge adaptation, reference understanding, conversation length fit, humor fit, and callback, which makes it easier to pinpoint where a model falls short. To make the simulated user more realistic and discriminative, LikeBench uses fine-grained, psychologically grounded descriptive personas rather than the coarse high/low trait rating based personas used in prior work. Our benchmark shows that strong memory performance does not guarantee high likability: DeepSeek R1, with lower memory accuracy (86%, 17 facts/profile), outperformed Qwen3 by 28% on likability score despite Qwen3's higher memory accuracy (93%, 43 facts/profile). Even SOTA models like GPT-5 adapt well in short exchanges but show only limited robustness in longer, noisier interactions.