La sollecitazione della persona come lente sul ragionamento sociale dei LLM

Abstract

Per compiti socialmente sensibili come il rilevamento dell'incitamento all'odio, la qualità delle spiegazioni fornite dai Large Language Model (LLM) è cruciale per fattori come la fiducia degli utenti e l'allineamento del modello. Sebbene il prompting basato su personaggi (Persona Prompting - PP) sia sempre più utilizzato come metodo per indirizzare la generazione del modello verso specificità utente, il suo effetto sulle motivazioni del modello rimane poco esplorato. Investigiamo come le motivazioni generate dagli LLM variano quando sono condizionate su diversi personaggi demografici simulati. Utilizzando dataset annotati con motivazioni a livello di parola, misuriamo la concordanza con le annotazioni umane provenienti da diversi gruppi demografici e valutiamo l'impatto del PP sul bias del modello e sull'allineamento umano. La nostra valutazione su tre LLM rivela tre risultati chiave: (1) Il PP migliora la classificazione nel compito più soggettivo (incitamento all'odio) ma degrada la qualità delle motivazioni. (2) I personaggi simulati non riescono ad allinearsi con le loro controparti demografiche nel mondo reale, e un'elevata concordanza inter-personaggio mostra che i modelli sono resistenti a uno steering significativo. (3) I modelli mostrano bias demografici consistenti e una forte tendenza a segnalare eccessivamente i contenuti come dannosi, indipendentemente dal PP. I nostri risultati rivelano un compromesso critico: sebbene il PP possa migliorare la classificazione in compiti socialmente sensibili, ciò avviene spesso a scapito della qualità delle motivazioni e non mitiga i bias sottostanti, sollecitando cautela nella sua applicazione.

English

For socially sensitive tasks like hate speech detection, the quality of explanations from Large Language Models (LLMs) is crucial for factors like user trust and model alignment. While Persona prompting (PP) is increasingly used as a way to steer model towards user-specific generation, its effect on model rationales remains underexplored. We investigate how LLM-generated rationales vary when conditioned on different simulated demographic personas. Using datasets annotated with word-level rationales, we measure agreement with human annotations from different demographic groups, and assess the impact of PP on model bias and human alignment. Our evaluation across three LLMs results reveals three key findings: (1) PP improving classification on the most subjective task (hate speech) but degrading rationale quality. (2) Simulated personas fail to align with their real-world demographic counterparts, and high inter-persona agreement shows models are resistant to significant steering. (3) Models exhibit consistent demographic biases and a strong tendency to over-flag content as harmful, regardless of PP. Our findings reveal a critical trade-off: while PP can improve classification in socially-sensitive tasks, it often comes at the cost of rationale quality and fails to mitigate underlying biases, urging caution in its application.

La sollecitazione della persona come lente sul ragionamento sociale dei LLM

Persona Prompting as a Lens on LLM Social Reasoning

Abstract

Support