Remettre les humains au centre de la personnalisation des LLM

Résumé

Malgré un intérêt croissant, la plupart des évaluations des capacités de personnalisation des grands modèles de langage (LLMs) reposent sur des données synthétiques. On ne sait pas encore dans quelle mesure les systèmes de personnalisation actuels fonctionnent pour les utilisateurs réels. Dans cet article, nous étudions l'écart de performance en matière de personnalisation des LLMs entre l'utilisation de données synthétiques et de données humaines. Nous collectons des conversations humaines (550 conversations) et des jugements à travers trois étapes de personnalisation : l'extraction des attributs utilisateur à partir des conversations (5 949 jugements), l'appariement des attributs pertinents avec de nouvelles requêtes (11 919), et l'intégration des attributs pertinents dans une réponse personnalisée (1 101). L'incorporation de données humaines révèle les limitations du système à chaque étape. Les modèles peinent à extraire les attributs des conversations humaines, sont en désaccord avec les jugements humains sur les attributs pertinents, et génèrent des réponses personnalisées que les humains jugent comme n'étant pas meilleures que des réponses génériques (bien que les LLMs les considèrent largement comme meilleures). Nous introduisons deux interventions légères basées sur l'apprentissage qui rapprochent l'évaluation automatisée de la personnalisation des données humaines dans nos deux premières étapes. Cependant, dans notre troisième étape, nous constatons que les modèles de récompense appris n'atteignent qu'une corrélation modeste avec les évaluations humaines, ce qui suggère que les jugements de qualité de personnalisation alignés sur l'humain sont difficiles à modéliser directement. Les données collectées fournissent une base pour étudier comment les modèles devraient extraire, sélectionner et incorporer les informations utilisateur de manière utile pour les humains.

English

Despite growing interest, most evaluations of large language models' (LLMs') personalization abilities have relied on synthetic data. It remains unclear how well current personalization systems work for real users. In this paper, we study the gap in LLM personalization performance when using synthetic versus human data. We collect human conversations (550 conversations) and judgments across three stages of personalization: extracting user attributes from conversations (5,949 judgments), pairing relevant attributes with new prompts (11,919), and incorporating relevant attributes into a personalized response (1,101). Incorporating human data reveals system limitations at each stage. Models struggle to extract attributes from human conversations, disagree with human judgments on relevant attributes, and generate personalized responses that humans judge no better than generic responses (though that LLM judges widely rate as better). We introduce two lightweight training-based interventions that shift automated personalization evaluation closer to human data in our first two stages. However, in our third stage we find that learned reward models achieve only modest correlation with human ratings, suggesting that human-aligned personalization quality judgments are difficult to model directly. Our collected data provides a foundation for studying how models should extract, select, and incorporate user information in ways that humans find useful.