Re-centrando a los humanos en la personalización de LLM

Resumen

A pesar del creciente interés, la mayoría de las evaluaciones de las capacidades de personalización de los modelos de lenguaje de gran escala (LLMs) se han basado en datos sintéticos. No está claro cómo funcionan los sistemas de personalización actuales para usuarios reales. En este artículo, estudiamos la brecha en el rendimiento de personalización de los LLMs al usar datos sintéticos frente a datos humanos. Recopilamos conversaciones humanas (550 conversaciones) y juicios en tres etapas de la personalización: extraer atributos del usuario a partir de conversaciones (5.949 juicios), emparejar atributos relevantes con nuevas indicaciones (11.919) e incorporar atributos relevantes en una respuesta personalizada (1.101). La incorporación de datos humanos revela limitaciones del sistema en cada etapa. Los modelos tienen dificultades para extraer atributos de conversaciones humanas, discrepan de los juicios humanos sobre atributos relevantes y generan respuestas personalizadas que los humanos consideran no mejores que las respuestas genéricas (aunque los LLMs las valoran ampliamente como superiores). Introducimos dos intervenciones ligeras basadas en entrenamiento que acercan la evaluación automatizada de personalización a los datos humanos en nuestras dos primeras etapas. Sin embargo, en nuestra tercera etapa encontramos que los modelos de recompensa aprendidos logran solo una correlación modesta con las valoraciones humanas, lo que sugiere que los juicios de calidad de personalización alineados con humanos son difíciles de modelar directamente. Nuestros datos recopilados proporcionan una base para estudiar cómo los modelos deberían extraer, seleccionar e incorporar información del usuario de maneras que los humanos consideren útiles.

English

Despite growing interest, most evaluations of large language models' (LLMs') personalization abilities have relied on synthetic data. It remains unclear how well current personalization systems work for real users. In this paper, we study the gap in LLM personalization performance when using synthetic versus human data. We collect human conversations (550 conversations) and judgments across three stages of personalization: extracting user attributes from conversations (5,949 judgments), pairing relevant attributes with new prompts (11,919), and incorporating relevant attributes into a personalized response (1,101). Incorporating human data reveals system limitations at each stage. Models struggle to extract attributes from human conversations, disagree with human judgments on relevant attributes, and generate personalized responses that humans judge no better than generic responses (though that LLM judges widely rate as better). We introduce two lightweight training-based interventions that shift automated personalization evaluation closer to human data in our first two stages. However, in our third stage we find that learned reward models achieve only modest correlation with human ratings, suggesting that human-aligned personalization quality judgments are difficult to model directly. Our collected data provides a foundation for studying how models should extract, select, and incorporate user information in ways that humans find useful.