ChatPaper.aiChatPaper

Персонифицированные подсказки как инструмент анализа социальных рассуждений в больших языковых моделях

Persona Prompting as a Lens on LLM Social Reasoning

January 28, 2026
Авторы: Jing Yang, Moritz Hechtbauer, Elisabeth Khalilov, Evelyn Luise Brinkmann, Vera Schmitt, Nils Feldhus
cs.AI

Аннотация

Для социально чувствительных задач, таких как обнаружение языка вражды, качество объяснений больших языковых моделей (LLM) крайне важно для таких факторов, как доверие пользователей и соответствие модели. Хотя prompting с использованием персон (Persona Prompting, PP) всё чаще применяется для направления модели в сторону пользовательской генерации, его влияние на обоснования моделей остаётся малоизученным. Мы исследуем, как варьируются обоснования, генерируемые LLM, при условии их настройки на различные симулированные демографические персоны. Используя наборы данных с аннотированными пословными обоснованиями, мы измеряем согласие с человеческими разметками от различных демографических групп и оцениваем влияние PP на смещение модели и соответствие человеческим оценкам. Наша оценка, проведенная на трёх LLM, выявила три ключевых результата: (1) PP улучшает классификацию в наиболее субъективной задаче (обнаружение языка вражды), но ухудшает качество обоснований. (2) Симитированные персоны не соответствуют своим реальным демографическим аналогам, а высокое межперсональное согласие показывает, что модели устойчивы к значительному управлению. (3) Модели демонстрируют устойчивые демографические смещения и сильную тенденцию к чрезмерному помечанию контента как вредоносного, независимо от PP. Наши результаты выявляют критический компромисс: хотя PP может улучшить классификацию в социально-чувствительных задачах, это часто достигается ценой качества обоснований и не позволяет смягчить базовые смещения, что требует осторожности в его применении.
English
For socially sensitive tasks like hate speech detection, the quality of explanations from Large Language Models (LLMs) is crucial for factors like user trust and model alignment. While Persona prompting (PP) is increasingly used as a way to steer model towards user-specific generation, its effect on model rationales remains underexplored. We investigate how LLM-generated rationales vary when conditioned on different simulated demographic personas. Using datasets annotated with word-level rationales, we measure agreement with human annotations from different demographic groups, and assess the impact of PP on model bias and human alignment. Our evaluation across three LLMs results reveals three key findings: (1) PP improving classification on the most subjective task (hate speech) but degrading rationale quality. (2) Simulated personas fail to align with their real-world demographic counterparts, and high inter-persona agreement shows models are resistant to significant steering. (3) Models exhibit consistent demographic biases and a strong tendency to over-flag content as harmful, regardless of PP. Our findings reveal a critical trade-off: while PP can improve classification in socially-sensitive tasks, it often comes at the cost of rationale quality and fails to mitigate underlying biases, urging caution in its application.
PDF11January 30, 2026