LikeBench: Avaliação da Simpatia Subjetiva em LLMs para Personalização
LikeBench: Evaluating Subjective Likability in LLMs for Personalization
December 15, 2025
Autores: Md Awsafur Rahman, Adam Gabrys, Doug Kang, Jingjing Sun, Tian Tan, Ashwin Chandramouli
cs.AI
Resumo
Um LLM personalizado deve lembrar factos do utilizador, aplicá-los corretamente e adaptar-se ao longo do tempo para fornecer respostas que o utilizador prefira. Os benchmarks de personalização de LLM existentes centram-se largamente em dois eixos: recordar com precisão a informação do utilizador e aplicar com precisão a informação memorizada em tarefas subsequentes. Argumentamos que um terceiro eixo, a simpatia (likability), é simultaneamente subjetivo e central para a experiência do utilizador, mas submedido pelos benchmarks atuais. Para medir a simpatia de forma holística, introduzimos o LikeBench, uma estrutura de avaliação dinâmica e multi-sessão que mede a simpatia através de múltiplas dimensões, avaliando o quanto um LLM consegue adaptar-se ao longo do tempo às preferências do utilizador para fornecer respostas mais simpáticas. No LikeBench, os LLMs envolvem-se em conversação com um utilizador simulado e aprendem preferências apenas a partir do diálogo em curso. À medida que a interação decorre, os modelos tentam adaptar-se às respostas, e após cada turno, são avaliados quanto à simpatia em sete dimensões pelo mesmo utilizador simulado. Tanto quanto sabemos, somos os primeiros a decompor a simpatia em múltiplas métricas de diagnóstico: adaptação emocional, correspondência de formalidade, adaptação de conhecimento, compreensão de referências, adequação do comprimento da conversa, adequação do humor e retorno (callback), o que facilita a identificação de onde um modelo falha. Para tornar o utilizador simulado mais realista e discriminativo, o LikeBench utiliza personas descritivas, psicologicamente fundamentadas e de granularidade fina, em vez das personas baseadas em classificações de traços grosseiras (alto/baixo) usadas em trabalhos anteriores. O nosso benchmark mostra que um forte desempenho de memória não garante uma alta simpatia: o DeepSeek R1, com menor precisão de memória (86%, 17 factos por perfil), superou o Qwen3 em 28% na pontuação de simpatia, apesar da maior precisão de memória do Qwen3 (93%, 43 factos por perfil). Até mesmo modelos de última geração (SOTA) como o GPT-5 adaptam-se bem em interações curtas, mas mostram apenas uma robustez limitada em interações mais longas e ruidosas.
English
A personalized LLM should remember user facts, apply them correctly, and adapt over time to provide responses that the user prefers. Existing LLM personalization benchmarks are largely centered on two axes: accurately recalling user information and accurately applying remembered information in downstream tasks. We argue that a third axis, likability, is both subjective and central to user experience, yet under-measured by current benchmarks. To measure likability holistically, we introduce LikeBench, a multi-session, dynamic evaluation framework that measures likability across multiple dimensions by how much an LLM can adapt over time to a user's preferences to provide more likable responses. In LikeBench, the LLMs engage in conversation with a simulated user and learn preferences only from the ongoing dialogue. As the interaction unfolds, models try to adapt to responses, and after each turn, they are evaluated for likability across seven dimensions by the same simulated user. To the best of our knowledge, we are the first to decompose likability into multiple diagnostic metrics: emotional adaptation, formality matching, knowledge adaptation, reference understanding, conversation length fit, humor fit, and callback, which makes it easier to pinpoint where a model falls short. To make the simulated user more realistic and discriminative, LikeBench uses fine-grained, psychologically grounded descriptive personas rather than the coarse high/low trait rating based personas used in prior work. Our benchmark shows that strong memory performance does not guarantee high likability: DeepSeek R1, with lower memory accuracy (86%, 17 facts/profile), outperformed Qwen3 by 28% on likability score despite Qwen3's higher memory accuracy (93%, 43 facts/profile). Even SOTA models like GPT-5 adapt well in short exchanges but show only limited robustness in longer, noisier interactions.