LikeBench: Оценка субъективной привлекательности в больших языковых моделях для персонализации
LikeBench: Evaluating Subjective Likability in LLMs for Personalization
December 15, 2025
Авторы: Md Awsafur Rahman, Adam Gabrys, Doug Kang, Jingjing Sun, Tian Tan, Ashwin Chandramouli
cs.AI
Аннотация
Персонализированная языковая модель должна запоминать факты о пользователе, корректно их применять и адаптироваться со временем, чтобы формировать ответы, предпочтительные для пользователя. Существующие бенчмарки персонализации языковых моделей в основном сосредоточены на двух аспектах: точном запоминании информации о пользователе и точном применении запомненной информации в последующих задачах. Мы утверждаем, что третий аспект — **приятность** (likability) — является одновременно субъективным и ключевым для пользовательского опыта, однако недостаточно измеряется текущими бенчмарками.
Для комплексного измерения приятности мы представляем **LikeBench** — многосессионную динамическую систему оценки, которая измеряет приятность по нескольким измерениям, оценивая, насколько языковая модель способна адаптироваться со временем к предпочтениям пользователя, чтобы давать более приятные ответы. В LikeBench языковые модели ведут диалог с симулированным пользователем и обучаются предпочтениям исключительно из текущего диалога. По мере развития взаимодействия модели пытаются адаптировать свои ответы, и после каждого хода симулированный пользователь оценивает их приятность по семи измерениям. Насколько нам известно, мы первые, кто декомпозирует приятность на несколько диагностических метрик: эмоциональная адаптация, соответствие формальности общения, адаптация знаний, понимание ссылок, соответствие желаемой длине диалога, соответствие юмору и использование отсылок (callback), — что позволяет точнее определить слабые места модели.
Чтобы сделать симулированного пользователя более реалистичным и различающим, LikeBench использует детализированные, психологически обоснованные описательные персонажи вместо грубых персонажей, основанных на оценках черт по шкале "высоко/низко", как в предыдущих работах. Наш бенчмарк показывает, что высокая производительность запоминания не гарантирует высокую приятность: DeepSeek R1, обладая более низкой точностью запоминания (86%, 17 фактов/профиль), превзошел Qwen3 на 28% по баллу приятности, несмотря на более высокую точность запоминания Qwen3 (93%, 43 факта/профиль). Даже передовые модели, такие как GPT-5, хорошо адаптируются в коротких диалогах, но демонстрируют лишь ограниченную устойчивость в более длинных и зашумленных взаимодействиях.
English
A personalized LLM should remember user facts, apply them correctly, and adapt over time to provide responses that the user prefers. Existing LLM personalization benchmarks are largely centered on two axes: accurately recalling user information and accurately applying remembered information in downstream tasks. We argue that a third axis, likability, is both subjective and central to user experience, yet under-measured by current benchmarks. To measure likability holistically, we introduce LikeBench, a multi-session, dynamic evaluation framework that measures likability across multiple dimensions by how much an LLM can adapt over time to a user's preferences to provide more likable responses. In LikeBench, the LLMs engage in conversation with a simulated user and learn preferences only from the ongoing dialogue. As the interaction unfolds, models try to adapt to responses, and after each turn, they are evaluated for likability across seven dimensions by the same simulated user. To the best of our knowledge, we are the first to decompose likability into multiple diagnostic metrics: emotional adaptation, formality matching, knowledge adaptation, reference understanding, conversation length fit, humor fit, and callback, which makes it easier to pinpoint where a model falls short. To make the simulated user more realistic and discriminative, LikeBench uses fine-grained, psychologically grounded descriptive personas rather than the coarse high/low trait rating based personas used in prior work. Our benchmark shows that strong memory performance does not guarantee high likability: DeepSeek R1, with lower memory accuracy (86%, 17 facts/profile), outperformed Qwen3 by 28% on likability score despite Qwen3's higher memory accuracy (93%, 43 facts/profile). Even SOTA models like GPT-5 adapt well in short exchanges but show only limited robustness in longer, noisier interactions.