LikeBench: 개인화를 위한 LLM의 주관적 호감도 평가
LikeBench: Evaluating Subjective Likability in LLMs for Personalization
December 15, 2025
저자: Md Awsafur Rahman, Adam Gabrys, Doug Kang, Jingjing Sun, Tian Tan, Ashwin Chandramouli
cs.AI
초록
개인화된 LLM은 사용자 정보를 기억하고, 이를 정확히 적용하며, 시간이 지남에 따라 적응하여 사용자가 선호하는 응답을 제공해야 합니다. 기존 LLM 개인화 벤치마크는 주로 두 가지 축을 중심으로 이루어집니다: 사용자 정보를 정확히 회상하는 것과 기억된 정보를 다운스트림 작업에 정확히 적용하는 것입니다. 우리는 세 번째 축인 '호감도'가 주관적이면서도 사용자 경험의 핵심임에도 불구하고, 현재 벤치마크에서 충분히 측정되지 않고 있다고 주장합니다. 호감도를 종합적으로 측정하기 위해 우리는 LikeBench를 도입했습니다. LikeBench는 다중 세션, 동적 평가 프레임워크로, LLM이 시간이 지남에 따라 사용자의 선호도에 적응하여 더 호감 가는 응답을 제공할 수 있는 정도를 여러 차원에서 측정합니다. LikeBench에서 LLM은 시뮬레이션된 사용자와 대화를 나누며, 진행 중인 대화에서만 선호도를 학습합니다. 상호작용이 전개됨에 따라 모델은 응답에 적응하려고 시도하며, 각 차례 후 동일한 시뮬레이션 사용자에 의해 7가지 차원에서 호감도를 평가받습니다. 우리가 아는 한, 우리는 최초로 호감도를 여러 진단 메트릭으로 분해했습니다: 정서적 적응, 격식도 맞춤, 지식 적응, 언급 이해, 대화 길이 적합도, 유머 적합도, 그리고 콜백입니다. 이를 통해 모델의 부족한 부분을 정확히 파악하기 쉬워집니다. 시뮬레이션 사용자를 더 현실적이고 판별력 있게 만들기 위해, LikeBench는 기존 연구에서 사용된 단순한 고/저 특성 평점 기반 페르소나가 아닌, 심리학적으로 근거를 둔 세분화된 서술형 페르소나를 사용합니다. 우리의 벤치마크는 강력한 기억 성능이 높은 호감도를 보장하지 않음을 보여줍니다: 기억 정확도가 낮은(86%, 프로필당 17개 사실) DeepSeek R1이 기억 정확도가 더 높은(93%, 프로필당 43개 사실) Qwen3보다 호감도 점수에서 28% 앞섰습니다. GPT-5와 같은 SOTA 모델들도 짧은 교환에서는 잘 적응하지만, 더 길고 노이즈가 많은 상호작용에서는 제한된 견고성만을 보였습니다.
English
A personalized LLM should remember user facts, apply them correctly, and adapt over time to provide responses that the user prefers. Existing LLM personalization benchmarks are largely centered on two axes: accurately recalling user information and accurately applying remembered information in downstream tasks. We argue that a third axis, likability, is both subjective and central to user experience, yet under-measured by current benchmarks. To measure likability holistically, we introduce LikeBench, a multi-session, dynamic evaluation framework that measures likability across multiple dimensions by how much an LLM can adapt over time to a user's preferences to provide more likable responses. In LikeBench, the LLMs engage in conversation with a simulated user and learn preferences only from the ongoing dialogue. As the interaction unfolds, models try to adapt to responses, and after each turn, they are evaluated for likability across seven dimensions by the same simulated user. To the best of our knowledge, we are the first to decompose likability into multiple diagnostic metrics: emotional adaptation, formality matching, knowledge adaptation, reference understanding, conversation length fit, humor fit, and callback, which makes it easier to pinpoint where a model falls short. To make the simulated user more realistic and discriminative, LikeBench uses fine-grained, psychologically grounded descriptive personas rather than the coarse high/low trait rating based personas used in prior work. Our benchmark shows that strong memory performance does not guarantee high likability: DeepSeek R1, with lower memory accuracy (86%, 17 facts/profile), outperformed Qwen3 by 28% on likability score despite Qwen3's higher memory accuracy (93%, 43 facts/profile). Even SOTA models like GPT-5 adapt well in short exchanges but show only limited robustness in longer, noisier interactions.