Persona-prompting als lens op sociaal redeneren in grote taalmodellen

Samenvatting

Voor sociaal gevoelige taken zoals haatspraakdetectie is de kwaliteit van verklaringen van grote taalmodel(len) cruciaal voor factoren zoals gebruikersvertrouwen en modelafstemming. Hoewel persona-prompting (PP) steeds vaker wordt gebruikt om modellen te sturen naar gebruikersspecifieke generatie, blijft het effect op modelredeneringen onderbelicht. Wij onderzoeken hoe door LLM gegenereerde redeneringen variëren wanneer ze worden geconditioneerd op verschillende gesimuleerde demografische persona's. Met behulp van datasets geannoteerd met woordniveau-redeneringen meten we de overeenstemming met menselijke annotaties van verschillende demografische groepen en beoordelen we de impact van PP op modelvooroordelen en menselijke afstemming. Onze evaluatie over drie LLM's levert drie belangrijke bevindingen op: (1) PP verbetert de classificatie bij de meest subjectieve taak (haatspraak) maar verslechtert de kwaliteit van de redenering. (2) Gesimuleerde persona's slagen er niet in af te stemmen op hun tegenhangers in de echte wereld, en hoge overeenstemming tussen persona's toont aan dat modellen resistent zijn tegen significante sturing. (3) Modellen vertonen consistente demografische vooroordelen en een sterke neiging om inhoud overmatig als schadelijk te bestempelen, ongeacht PP. Onze bevindingen onthullen een kritieke afweging: hoewel PP de classificatie bij sociaal gevoelige taken kan verbeteren, gaat dit vaak ten koste van de kwaliteit van de redenering en slaagt het er niet in onderliggende vooroordelen te mitigeren, wat tot voorzichtigheid bij de toepassing maant.

English

For socially sensitive tasks like hate speech detection, the quality of explanations from Large Language Models (LLMs) is crucial for factors like user trust and model alignment. While Persona prompting (PP) is increasingly used as a way to steer model towards user-specific generation, its effect on model rationales remains underexplored. We investigate how LLM-generated rationales vary when conditioned on different simulated demographic personas. Using datasets annotated with word-level rationales, we measure agreement with human annotations from different demographic groups, and assess the impact of PP on model bias and human alignment. Our evaluation across three LLMs results reveals three key findings: (1) PP improving classification on the most subjective task (hate speech) but degrading rationale quality. (2) Simulated personas fail to align with their real-world demographic counterparts, and high inter-persona agreement shows models are resistant to significant steering. (3) Models exhibit consistent demographic biases and a strong tendency to over-flag content as harmful, regardless of PP. Our findings reveal a critical trade-off: while PP can improve classification in socially-sensitive tasks, it often comes at the cost of rationale quality and fails to mitigate underlying biases, urging caution in its application.

Persona-prompting als lens op sociaal redeneren in grote taalmodellen

Persona Prompting as a Lens on LLM Social Reasoning

Samenvatting

Support