ChatPaper.aiChatPaper

LLM 사회적 추론의 렌즈로서의 페르소나 프롬프팅

Persona Prompting as a Lens on LLM Social Reasoning

January 28, 2026
저자: Jing Yang, Moritz Hechtbauer, Elisabeth Khalilov, Evelyn Luise Brinkmann, Vera Schmitt, Nils Feldhus
cs.AI

초록

사회적으로 민감한 혐오 발화 탐지와 같은 과제에서 대규모 언어 모델(LLM)이 제공하는 설명의 질은 사용자 신뢰 및 모델 정렬과 같은 요소에 있어 중요합니다. 페르소나 프롬프팅(PP)은 모델을 사용자 맞춤형 생성으로 유도하는 방법으로 점차 활용되고 있으나, 모델의 근거 생성에 미치는 영향은 아직 충분히 연구되지 않았습니다. 본 연구는 서로 다른 인구통계학적 페르소나를 시뮬레이션하여 조건을 부여했을 때 LLM이 생성하는 근거가 어떻게 변화하는지 조사합니다. 단어 수준 근거가 주석 처리된 데이터셋을 사용하여 서로 다른 인구통계학적 집단의 인간 주석과의 일치도를 측정하고, PP가 모델 편향 및 인간 정렬에 미치는 영향을 평가합니다. 세 가지 LLM에 대한 평가 결과 세 가지 주요 발견을 확인했습니다: (1) PP는 가장 주관적인 과제(혐오 발화)에서 분류 성능은 향상시키지만 근거의 질은 저하시킵니다. (2) 시뮬레이션된 페르소나는 실제 인구통계학적 집단과 정렬되지 않으며, 높은 페르소나 간 일치도는 모델이 의미 있는 유도에 저항함을 보여줍니다. (3) 모델은 PP 적용 여부와 관계없이 일관된 인구통계학적 편향과 콘텐츠를 유해하다고 과도하게 판단하는 강한 경향을 나타냅니다. 본 연구의 결과는 중요한 상충 관계를 드러냅니다: PP가 사회적으로 민감한 과제에서 분류 성능을 향상시킬 수는 있지만, 이는 종종 근거 질의 저하를 수반하며 근본적인 편향을 완화하지 못하므로 적용 시 주의를 촉구합니다.
English
For socially sensitive tasks like hate speech detection, the quality of explanations from Large Language Models (LLMs) is crucial for factors like user trust and model alignment. While Persona prompting (PP) is increasingly used as a way to steer model towards user-specific generation, its effect on model rationales remains underexplored. We investigate how LLM-generated rationales vary when conditioned on different simulated demographic personas. Using datasets annotated with word-level rationales, we measure agreement with human annotations from different demographic groups, and assess the impact of PP on model bias and human alignment. Our evaluation across three LLMs results reveals three key findings: (1) PP improving classification on the most subjective task (hate speech) but degrading rationale quality. (2) Simulated personas fail to align with their real-world demographic counterparts, and high inter-persona agreement shows models are resistant to significant steering. (3) Models exhibit consistent demographic biases and a strong tendency to over-flag content as harmful, regardless of PP. Our findings reveal a critical trade-off: while PP can improve classification in socially-sensitive tasks, it often comes at the cost of rationale quality and fails to mitigate underlying biases, urging caution in its application.
PDF11January 30, 2026