La sollicitation de persona comme perspective sur le raisonnement social des LLM
Persona Prompting as a Lens on LLM Social Reasoning
January 28, 2026
papers.authors: Jing Yang, Moritz Hechtbauer, Elisabeth Khalilov, Evelyn Luise Brinkmann, Vera Schmitt, Nils Feldhus
cs.AI
papers.abstract
Pour les tâches socialement sensibles telles que la détection des discours haineux, la qualité des explications fournies par les grands modèles de langage (LLM) est cruciale pour des facteurs comme la confiance des utilisateurs et l'alignement du modèle. Bien que l'incitation par persona (Persona Prompting, PP) soit de plus en plus utilisée pour orienter la génération du modèle vers des spécificités utilisateur, son effet sur les raisonnements du modèle reste peu exploré. Nous étudions comment les raisonnements générés par les LLM varient lorsqu'ils sont conditionnés par différentes personas démographiques simulées. En utilisant des jeux de données annotés avec des raisonnements au niveau des mots, nous mesurons l'accord avec les annotations humaines de différents groupes démographiques et évaluons l'impact du PP sur le biais du modèle et l'alignement humain. Notre évaluation sur trois LLM révèle trois résultats clés : (1) Le PP améliore la classification pour la tâche la plus subjective (discours haineux) mais dégrade la qualité du raisonnement. (2) Les personas simulées ne parviennent pas à s'aligner avec leurs contreparties démographiques réelles, et un fort accord inter-personas montre que les modèles résistent à un pilotage significatif. (3) Les modèles présentent des biais démographiques persistants et une forte tendance à sur-signaler le contenu comme étant nuisible, indépendamment du PP. Nos résultats révèlent un compromis critique : si le PP peut améliorer la classification dans les tâches socialement sensibles, cela se fait souvent au détriment de la qualité du raisonnement et n'atténue pas les biais sous-jacents, ce qui appelle à la prudence dans son application.
English
For socially sensitive tasks like hate speech detection, the quality of explanations from Large Language Models (LLMs) is crucial for factors like user trust and model alignment. While Persona prompting (PP) is increasingly used as a way to steer model towards user-specific generation, its effect on model rationales remains underexplored. We investigate how LLM-generated rationales vary when conditioned on different simulated demographic personas. Using datasets annotated with word-level rationales, we measure agreement with human annotations from different demographic groups, and assess the impact of PP on model bias and human alignment. Our evaluation across three LLMs results reveals three key findings: (1) PP improving classification on the most subjective task (hate speech) but degrading rationale quality. (2) Simulated personas fail to align with their real-world demographic counterparts, and high inter-persona agreement shows models are resistant to significant steering. (3) Models exhibit consistent demographic biases and a strong tendency to over-flag content as harmful, regardless of PP. Our findings reveal a critical trade-off: while PP can improve classification in socially-sensitive tasks, it often comes at the cost of rationale quality and fails to mitigate underlying biases, urging caution in its application.