A Ativação de Persona como uma Lente para o Raciocínio Social em LLMs

Resumo

Em tarefas socialmente sensíveis como a detecção de discurso de ódio, a qualidade das explicações fornecidas por Modelos de Linguagem de Grande Porte (LLMs) é crucial para fatores como a confiança do utilizador e o alinhamento do modelo. Embora a indução por persona (Persona Prompting - PP) seja cada vez mais utilizada como forma de orientar a geração do modelo para especificidades do utilizador, o seu efeito nas racionalizações do modelo permanece pouco explorado. Investigamos como as racionalizações geradas por LLMs variam quando condicionadas a diferentes personas demográficas simuladas. Utilizando conjuntos de dados anotados com racionalizações a nível de palavra, medimos a concordância com anotações humanas de diferentes grupos demográficos e avaliamos o impacto do PP no viés do modelo e no alinhamento humano. A nossa avaliação em três LLMs revela três conclusões principais: (1) O PP melhora a classificação na tarefa mais subjetiva (discurso de ódio), mas degrada a qualidade da racionalização. (2) Personas simuladas não conseguem alinhar-se com as suas contrapartes demográficas do mundo real, e a alta concordância inter-pessoas mostra que os modelos são resistentes a uma orientação significativa. (3) Os modelos exibem vieses demográficos consistentes e uma forte tendência para sinalizar excessivamente conteúdo como prejudicial, independentemente do PP. As nossas descobertas revelam um trade-off crítico: embora o PP possa melhorar a classificação em tarefas socialmente sensíveis, isso frequentemente ocorre à custa da qualidade da racionalização e não mitiga os vieses subjacentes, exigindo cautela na sua aplicação.

English

For socially sensitive tasks like hate speech detection, the quality of explanations from Large Language Models (LLMs) is crucial for factors like user trust and model alignment. While Persona prompting (PP) is increasingly used as a way to steer model towards user-specific generation, its effect on model rationales remains underexplored. We investigate how LLM-generated rationales vary when conditioned on different simulated demographic personas. Using datasets annotated with word-level rationales, we measure agreement with human annotations from different demographic groups, and assess the impact of PP on model bias and human alignment. Our evaluation across three LLMs results reveals three key findings: (1) PP improving classification on the most subjective task (hate speech) but degrading rationale quality. (2) Simulated personas fail to align with their real-world demographic counterparts, and high inter-persona agreement shows models are resistant to significant steering. (3) Models exhibit consistent demographic biases and a strong tendency to over-flag content as harmful, regardless of PP. Our findings reveal a critical trade-off: while PP can improve classification in socially-sensitive tasks, it often comes at the cost of rationale quality and fails to mitigate underlying biases, urging caution in its application.

A Ativação de Persona como uma Lente para o Raciocínio Social em LLMs

Persona Prompting as a Lens on LLM Social Reasoning

Resumo

Support