ChatPaper.aiChatPaper

LikeBench: パーソナライゼーションのためのLLMにおける主観的好感度評価

LikeBench: Evaluating Subjective Likability in LLMs for Personalization

December 15, 2025
著者: Md Awsafur Rahman, Adam Gabrys, Doug Kang, Jingjing Sun, Tian Tan, Ashwin Chandramouli
cs.AI

要旨

個人化された大規模言語モデル(LLM)は、ユーザーの事実を記憶し、それを正確に適用し、時間の経過とともに適応して、ユーザーが好む応答を提供すべきである。既存のLLM個人化ベンチマークは、主に2つの軸を中心に構成されている。すなわち、ユーザー情報を正確に想起することと、記憶した情報を下流タスクで正確に適用することである。我々は、第三の軸である「好感度」が、主観的でありながらユーザー体験の中心でありながら、現在のベンチマークでは十分に測定されていないと主張する。好感度を包括的に測定するため、我々はLikeBenchを提案する。これは、マルチセッションで動的な評価フレームワークであり、LLMが時間の経過とともにユーザーの嗜好に適応して、より好感の持てる応答をどの程度提供できるかによって、複数の次元にわたって好感度を測定する。LikeBenchでは、LLMはシミュレートされたユーザーと対話し、進行中の対話のみから嗜好を学習する。相互作用が進むにつれて、モデルは応答に適応しようと試み、各ターンの後、同じシミュレートされたユーザーによって7つの次元で好感度が評価される。我々の知る限り、好感度を複数の診断指標(感情的適応、形式性の一致、知識適応、参照理解、会話長適応、ユーモア適応、コールバック)に分解したのは本研究が初めてであり、モデルの弱点を特定しやすくしている。シミュレートされたユーザーをより現実的かつ識別力のあるものにするため、LikeBenchは、従来研究で用いられてきた粗い高/低特性評価ベースのペルソナではなく、細かく心理学的に基礎付けられた記述的ペルソナを使用する。我々のベンチマークは、強力な記憶性能が高い好感度を保証しないことを示している。記憶精度が低い(86%、17 facts/profile)DeepSeek R1は、記憶精度が高い(93%、43 facts/profile)Qwen3よりも、好感度スコアで28%上回った。GPT-5のようなSOTAモデルでさえ、短いやり取りでは適応が良好であるが、より長くノイズの多い相互作用では限定的な頑健性しか示さない。
English
A personalized LLM should remember user facts, apply them correctly, and adapt over time to provide responses that the user prefers. Existing LLM personalization benchmarks are largely centered on two axes: accurately recalling user information and accurately applying remembered information in downstream tasks. We argue that a third axis, likability, is both subjective and central to user experience, yet under-measured by current benchmarks. To measure likability holistically, we introduce LikeBench, a multi-session, dynamic evaluation framework that measures likability across multiple dimensions by how much an LLM can adapt over time to a user's preferences to provide more likable responses. In LikeBench, the LLMs engage in conversation with a simulated user and learn preferences only from the ongoing dialogue. As the interaction unfolds, models try to adapt to responses, and after each turn, they are evaluated for likability across seven dimensions by the same simulated user. To the best of our knowledge, we are the first to decompose likability into multiple diagnostic metrics: emotional adaptation, formality matching, knowledge adaptation, reference understanding, conversation length fit, humor fit, and callback, which makes it easier to pinpoint where a model falls short. To make the simulated user more realistic and discriminative, LikeBench uses fine-grained, psychologically grounded descriptive personas rather than the coarse high/low trait rating based personas used in prior work. Our benchmark shows that strong memory performance does not guarantee high likability: DeepSeek R1, with lower memory accuracy (86%, 17 facts/profile), outperformed Qwen3 by 28% on likability score despite Qwen3's higher memory accuracy (93%, 43 facts/profile). Even SOTA models like GPT-5 adapt well in short exchanges but show only limited robustness in longer, noisier interactions.
PDF12December 19, 2025