Mensen opnieuw centreren in LLM-personalisatie

Samenvatting

Ondanks de groeiende interesse zijn de meeste evaluaties van de personalisatiecapaciteiten van grote taalmodellen (LLM's) gebaseerd op synthetische data. Het blijft onduidelijk hoe goed huidige personalisatiesystemen werken voor echte gebruikers. In dit artikel bestuderen we de kloof in personalisatieprestaties van LLM's bij het gebruik van synthetische versus menselijke data. We verzamelen menselijke gesprekken (550 gesprekken) en beoordelingen over drie fasen van personalisatie: het extraheren van gebruikerskenmerken uit gesprekken (5.949 beoordelingen), het koppelen van relevante kenmerken aan nieuwe prompts (11.919) en het integreren van relevante kenmerken in een gepersonaliseerde reactie (1.101). Het integreren van menselijke data onthult systeembeperkingen in elke fase. Modellen hebben moeite met het extraheren van kenmerken uit menselijke gesprekken, zijn het oneens met menselijke beoordelingen over relevante kenmerken, en genereren gepersonaliseerde reacties die mensen niet beter beoordelen dan generieke reacties (hoewel LLM's die zelf breed als beter beoordelen). We introduceren twee lichtgewicht trainingsgebaseerde interventies die geautomatiseerde personalisatie-evaluatie dichter bij menselijke data brengen in onze eerste twee fasen. In onze derde fase vinden we echter dat aangeleerde beloningsmodellen slechts een bescheiden correlatie vertonen met menselijke beoordelingen, wat suggereert dat mensgerichte personalisatiekwaliteitsoordelen moeilijk direct te modelleren zijn. Onze verzamelde data biedt een basis voor het bestuderen van hoe modellen gebruikersinformatie moeten extraheren, selecteren en integreren op manieren die mensen nuttig vinden.

English

Despite growing interest, most evaluations of large language models' (LLMs') personalization abilities have relied on synthetic data. It remains unclear how well current personalization systems work for real users. In this paper, we study the gap in LLM personalization performance when using synthetic versus human data. We collect human conversations (550 conversations) and judgments across three stages of personalization: extracting user attributes from conversations (5,949 judgments), pairing relevant attributes with new prompts (11,919), and incorporating relevant attributes into a personalized response (1,101). Incorporating human data reveals system limitations at each stage. Models struggle to extract attributes from human conversations, disagree with human judgments on relevant attributes, and generate personalized responses that humans judge no better than generic responses (though that LLM judges widely rate as better). We introduce two lightweight training-based interventions that shift automated personalization evaluation closer to human data in our first two stages. However, in our third stage we find that learned reward models achieve only modest correlation with human ratings, suggesting that human-aligned personalization quality judgments are difficult to model directly. Our collected data provides a foundation for studying how models should extract, select, and incorporate user information in ways that humans find useful.