LikeBench: Evaluación de la Capacidad de Gusto Subjetivo en LLM para la Personalización
LikeBench: Evaluating Subjective Likability in LLMs for Personalization
December 15, 2025
Autores: Md Awsafur Rahman, Adam Gabrys, Doug Kang, Jingjing Sun, Tian Tan, Ashwin Chandramouli
cs.AI
Resumen
Un LLM personalizado debe recordar datos del usuario, aplicarlos correctamente y adaptarse con el tiempo para ofrecer respuestas que el usuario prefiera. Los puntos de referencia existentes para la personalización de LLM se centran principalmente en dos ejes: recordar con precisión la información del usuario y aplicar con precisión la información recordada en tareas posteriores. Sostenemos que un tercer eje, la capacidad de agrado (likability), es tanto subjetivo como central para la experiencia del usuario, y sin embargo, está insuficientemente medido por los puntos de referencia actuales. Para medir la capacidad de agrado de manera integral, presentamos LikeBench, un marco de evaluación dinámico y multi-sesión que mide la capacidad de agrado en múltiples dimensiones según cuánto pueda un LLM adaptarse con el tiempo a las preferencias de un usuario para ofrecer respuestas más agradables. En LikeBench, los LLM participan en una conversación con un usuario simulado y aprenden preferencias únicamente del diálogo en curso. A medida que la interacción se desarrolla, los modelos intentan adaptar sus respuestas, y después de cada turno, son evaluados en su capacidad de agrado a través de siete dimensiones por el mismo usuario simulado. Hasta donde sabemos, somos los primeros en descomponer la capacidad de agrado en múltiples métricas diagnósticas: adaptación emocional, ajuste de formalidad, adaptación de conocimiento, comprensión de referencias, ajuste de longitud de conversación, ajuste de humor y uso de referencias previas (callback), lo que facilita identificar en qué aspecto falla un modelo. Para hacer que el usuario simulado sea más realista y discriminativo, LikeBench utiliza personas descriptivas con base psicológica y grano fino, en lugar de las personas basadas en calificaciones de rasgos alto/bajo y gruesas utilizadas en trabajos anteriores. Nuestro punto de referencia muestra que un buen rendimiento en memoria no garantiza una alta capacidad de agrado: DeepSeek R1, con una precisión de memoria menor (86%, 17 hechos por perfil), superó a Qwen3 en un 28% en la puntuación de agrado a pesar de la mayor precisión de memoria de Qwen3 (93%, 43 hechos por perfil). Incluso modelos de vanguardia como GPT-5 se adaptan bien en intercambios cortos, pero muestran una solidez limitada en interacciones más largas y ruidosas.
English
A personalized LLM should remember user facts, apply them correctly, and adapt over time to provide responses that the user prefers. Existing LLM personalization benchmarks are largely centered on two axes: accurately recalling user information and accurately applying remembered information in downstream tasks. We argue that a third axis, likability, is both subjective and central to user experience, yet under-measured by current benchmarks. To measure likability holistically, we introduce LikeBench, a multi-session, dynamic evaluation framework that measures likability across multiple dimensions by how much an LLM can adapt over time to a user's preferences to provide more likable responses. In LikeBench, the LLMs engage in conversation with a simulated user and learn preferences only from the ongoing dialogue. As the interaction unfolds, models try to adapt to responses, and after each turn, they are evaluated for likability across seven dimensions by the same simulated user. To the best of our knowledge, we are the first to decompose likability into multiple diagnostic metrics: emotional adaptation, formality matching, knowledge adaptation, reference understanding, conversation length fit, humor fit, and callback, which makes it easier to pinpoint where a model falls short. To make the simulated user more realistic and discriminative, LikeBench uses fine-grained, psychologically grounded descriptive personas rather than the coarse high/low trait rating based personas used in prior work. Our benchmark shows that strong memory performance does not guarantee high likability: DeepSeek R1, with lower memory accuracy (86%, 17 facts/profile), outperformed Qwen3 by 28% on likability score despite Qwen3's higher memory accuracy (93%, 43 facts/profile). Even SOTA models like GPT-5 adapt well in short exchanges but show only limited robustness in longer, noisier interactions.