LikeBench: Valutazione della Simpatia Soggettiva negli LLM per la Personalizzazione
LikeBench: Evaluating Subjective Likability in LLMs for Personalization
December 15, 2025
Autori: Md Awsafur Rahman, Adam Gabrys, Doug Kang, Jingjing Sun, Tian Tan, Ashwin Chandramouli
cs.AI
Abstract
Un LLM personalizzato dovrebbe ricordare i fatti dell'utente, applicarli correttamente e adattarsi nel tempo per fornire risposte che l'utente preferisce. Gli attuali benchmark di personalizzazione dei LLM si concentrano principalmente su due assi: ricordare accuratamente le informazioni dell'utente e applicare accuratamente le informazioni ricordate in compiti downstream. Sosteniamo che un terzo asse, la *piacevolezza* (likability), sia sia soggettivo che centrale per l'esperienza utente, ma sia sottovalutato dagli attuali benchmark. Per misurare la piacevolezza in modo olistico, introduciamo LikeBench, un framework di valutazione dinamico e multi-sessione che misura la piacevolezza lungo molteplici dimensioni, valutando quanto un LLM possa adattarsi nel tempo alle preferenze dell'utente per fornire risposte più apprezzabili. In LikeBench, i LLM conversano con un utente simulato e apprendono le preferenze esclusivamente dal dialogo in corso. Man mano che l'interazione procede, i modelli tentano di adattare le loro risposte, e dopo ogni turno vengono valutati per la piacevolezza lungo sette dimensioni dallo stesso utente simulato. Per quanto a nostra conoscenza, siamo i primi a scomporre la piacevolezza in metriche diagnostiche multiple: adattamento emotivo, corrispondenza della formalità, adattamento della conoscenza, comprensione dei riferimenti, adeguatezza della lunghezza della conversazione, adeguatezza dell'umorismo e richiami al contesto (callback), il che rende più semplice identificare dove un modello è carente. Per rendere l'utente simulato più realistico e discriminante, LikeBench utilizza descrittori di persona granulari e psicologicamente fondati, piuttosto che i descrittori basati su tratti generici (alto/basso) utilizzati in lavori precedenti. Il nostro benchmark mostra che una forte performance mnemonica non garantisce un'alta piacevolezza: DeepSeek R1, con una minore accuratezza di memoria (86%, 17 fatti/profilo), ha superato Qwen3 del 28% sul punteggio di piacevolezza nonostante la maggiore accuratezza mnemonica di Qwen3 (93%, 43 fatti/profilo). Anche modelli all'avanguardia come GPT-5 si adattano bene in scambi brevi, ma mostrano una robustezza limitata in interazioni più lunghe e rumorose.
English
A personalized LLM should remember user facts, apply them correctly, and adapt over time to provide responses that the user prefers. Existing LLM personalization benchmarks are largely centered on two axes: accurately recalling user information and accurately applying remembered information in downstream tasks. We argue that a third axis, likability, is both subjective and central to user experience, yet under-measured by current benchmarks. To measure likability holistically, we introduce LikeBench, a multi-session, dynamic evaluation framework that measures likability across multiple dimensions by how much an LLM can adapt over time to a user's preferences to provide more likable responses. In LikeBench, the LLMs engage in conversation with a simulated user and learn preferences only from the ongoing dialogue. As the interaction unfolds, models try to adapt to responses, and after each turn, they are evaluated for likability across seven dimensions by the same simulated user. To the best of our knowledge, we are the first to decompose likability into multiple diagnostic metrics: emotional adaptation, formality matching, knowledge adaptation, reference understanding, conversation length fit, humor fit, and callback, which makes it easier to pinpoint where a model falls short. To make the simulated user more realistic and discriminative, LikeBench uses fine-grained, psychologically grounded descriptive personas rather than the coarse high/low trait rating based personas used in prior work. Our benchmark shows that strong memory performance does not guarantee high likability: DeepSeek R1, with lower memory accuracy (86%, 17 facts/profile), outperformed Qwen3 by 28% on likability score despite Qwen3's higher memory accuracy (93%, 43 facts/profile). Even SOTA models like GPT-5 adapt well in short exchanges but show only limited robustness in longer, noisier interactions.