ChatPaper.aiChatPaper

Persona-Prompting als Linse auf das soziale Denken von LLMs

Persona Prompting as a Lens on LLM Social Reasoning

January 28, 2026
papers.authors: Jing Yang, Moritz Hechtbauer, Elisabeth Khalilov, Evelyn Luise Brinkmann, Vera Schmitt, Nils Feldhus
cs.AI

papers.abstract

Bei gesellschaftlich sensiblen Aufgaben wie der Erkennung von Hassrede ist die Qualität der Erklärungen von Large Language Models (LLMs) entscheidend für Faktoren wie Nutzervertrauen und Modellabstimmung. Während Persona-Prompting (PP) zunehmend als Methode eingesetzt wird, um Modelle auf nutzerspezifische Generierung auszurichten, ist seine Wirkung auf Modellbegründungen noch wenig erforscht. Wir untersuchen, wie sich die von LLMs generierten Begründungen verändern, wenn sie auf verschiedene simulierte demografische Personas konditioniert werden. Unter Verwendung von Datensätzen, die mit wortbasierten Begründungen annotiert sind, messen wir die Übereinstimmung mit menschlichen Annotationen verschiedener demografischer Gruppen und bewerten die Auswirkungen von PP auf Modellverzerrungen und menschliche Abstimmung. Unsere Auswertung über drei LLMs hinweg ergibt drei zentrale Erkenntnisse: (1) PP verbessert die Klassifizierung bei der subjektivsten Aufgabe (Hassrede), verschlechtert aber die Qualität der Begründungen. (2) Simulierte Personas stimmen nicht mit ihren realen demografischen Gegenstücken überein, und eine hohe Übereinstimmung zwischen den Personas zeigt, dass Modelle resistent gegen signifikante Steuerung sind. (3) Modelle weisen konsistente demografische Verzerrungen und eine starke Tendenz auf, Inhalte unabhängig von PP übermäßig als schädlich zu kennzeichnen. Unsere Ergebnisse zeigen einen kritischen Zielkonflikt: Während PP die Klassifizierung bei gesellschaftlich sensiblen Aufgaben verbessern kann, geht dies oft auf Kosten der Begründungsqualität und mildert zugrunde liegende Verzerrungen nicht ab, was zur Vorsicht bei der Anwendung mahnt.
English
For socially sensitive tasks like hate speech detection, the quality of explanations from Large Language Models (LLMs) is crucial for factors like user trust and model alignment. While Persona prompting (PP) is increasingly used as a way to steer model towards user-specific generation, its effect on model rationales remains underexplored. We investigate how LLM-generated rationales vary when conditioned on different simulated demographic personas. Using datasets annotated with word-level rationales, we measure agreement with human annotations from different demographic groups, and assess the impact of PP on model bias and human alignment. Our evaluation across three LLMs results reveals three key findings: (1) PP improving classification on the most subjective task (hate speech) but degrading rationale quality. (2) Simulated personas fail to align with their real-world demographic counterparts, and high inter-persona agreement shows models are resistant to significant steering. (3) Models exhibit consistent demographic biases and a strong tendency to over-flag content as harmful, regardless of PP. Our findings reveal a critical trade-off: while PP can improve classification in socially-sensitive tasks, it often comes at the cost of rationale quality and fails to mitigate underlying biases, urging caution in its application.
PDF11January 30, 2026