La activación de roles como lente para el razonamiento social en los LLM
Persona Prompting as a Lens on LLM Social Reasoning
January 28, 2026
Autores: Jing Yang, Moritz Hechtbauer, Elisabeth Khalilov, Evelyn Luise Brinkmann, Vera Schmitt, Nils Feldhus
cs.AI
Resumen
Para tareas socialmente sensibles como la detección de discurso de odio, la calidad de las explicaciones de los Grandes Modelos de Lenguaje (LLMs) es crucial para factores como la confianza del usuario y la alineación del modelo. Si bien el prompting de personalidad (PP) se utiliza cada vez más como una forma de dirigir el modelo hacia una generación específica del usuario, su efecto en las racionalidades del modelo sigue siendo poco explorado. Investigamos cómo varían las racionalidades generadas por LLMs cuando se condicionan a diferentes personalidades demográficas simuladas. Utilizando conjuntos de datos anotados con racionalidades a nivel de palabra, medimos la concordancia con anotaciones humanas de diferentes grupos demográficos y evaluamos el impacto del PP en el sesgo del modelo y la alineación humana. Nuestra evaluación en tres LLMs revela tres hallazgos clave: (1) El PP mejora la clasificación en la tarea más subjetiva (discurso de odio) pero degrada la calidad de la racionalidad. (2) Las personalidades simuladas no logran alinearse con sus contrapartes demográficas del mundo real, y la alta concordancia inter-personalidad muestra que los modelos son resistentes a una dirección significativa. (3) Los modelos exhiben sesgos demográficos consistentes y una fuerte tendencia a sobre-marcar contenido como dañino, independientemente del PP. Nuestros hallazgos revelan una disyuntiva crítica: si bien el PP puede mejorar la clasificación en tareas socialmente sensibles, a menudo lo hace a costa de la calidad de la racionalidad y no logra mitigar los sesgos subyacentes, lo que urge precaución en su aplicación.
English
For socially sensitive tasks like hate speech detection, the quality of explanations from Large Language Models (LLMs) is crucial for factors like user trust and model alignment. While Persona prompting (PP) is increasingly used as a way to steer model towards user-specific generation, its effect on model rationales remains underexplored. We investigate how LLM-generated rationales vary when conditioned on different simulated demographic personas. Using datasets annotated with word-level rationales, we measure agreement with human annotations from different demographic groups, and assess the impact of PP on model bias and human alignment. Our evaluation across three LLMs results reveals three key findings: (1) PP improving classification on the most subjective task (hate speech) but degrading rationale quality. (2) Simulated personas fail to align with their real-world demographic counterparts, and high inter-persona agreement shows models are resistant to significant steering. (3) Models exhibit consistent demographic biases and a strong tendency to over-flag content as harmful, regardless of PP. Our findings reveal a critical trade-off: while PP can improve classification in socially-sensitive tasks, it often comes at the cost of rationale quality and fails to mitigate underlying biases, urging caution in its application.