Re-centralizando Humanos na Personalização de LLMs

Resumo

Apesar do crescente interesse, a maioria das avaliações das capacidades de personalização de modelos de linguagem de grande porte (LLMs) tem se baseado em dados sintéticos. Ainda não está claro o quão bem os sistemas de personalização atuais funcionam para usuários reais. Neste artigo, estudamos a lacuna no desempenho de personalização de LLMs ao utilizar dados sintéticos versus dados humanos. Coletamos conversas humanas (550 conversas) e julgamentos em três estágios da personalização: extração de atributos dos usuários a partir de conversas (5.949 julgamentos), associação de atributos relevantes a novos prompts (11.919) e incorporação de atributos relevantes em uma resposta personalizada (1.101). A incorporação de dados humanos revela limitações do sistema em cada estágio. Os modelos têm dificuldade em extrair atributos de conversas humanas, discordam dos julgamentos humanos sobre atributos relevantes e geram respostas personalizadas que os humanos julgam como não melhores do que respostas genéricas (embora o próprio LLM as avalie amplamente como melhores). Introduzimos duas intervenções leves baseadas em treinamento que aproximam a avaliação automatizada de personalização dos dados humanos em nossos dois primeiros estágios. No entanto, em nosso terceiro estágio, descobrimos que modelos de recompensa aprendidos alcançam apenas correlação modesta com as avaliações humanas, sugerindo que julgamentos de qualidade de personalização alinhados com humanos são difíceis de modelar diretamente. Os dados coletados fornecem uma base para estudar como os modelos devem extrair, selecionar e incorporar informações do usuário de maneiras que os humanos considerem úteis.

English

Despite growing interest, most evaluations of large language models' (LLMs') personalization abilities have relied on synthetic data. It remains unclear how well current personalization systems work for real users. In this paper, we study the gap in LLM personalization performance when using synthetic versus human data. We collect human conversations (550 conversations) and judgments across three stages of personalization: extracting user attributes from conversations (5,949 judgments), pairing relevant attributes with new prompts (11,919), and incorporating relevant attributes into a personalized response (1,101). Incorporating human data reveals system limitations at each stage. Models struggle to extract attributes from human conversations, disagree with human judgments on relevant attributes, and generate personalized responses that humans judge no better than generic responses (though that LLM judges widely rate as better). We introduce two lightweight training-based interventions that shift automated personalization evaluation closer to human data in our first two stages. However, in our third stage we find that learned reward models achieve only modest correlation with human ratings, suggesting that human-aligned personalization quality judgments are difficult to model directly. Our collected data provides a foundation for studying how models should extract, select, and incorporate user information in ways that humans find useful.