ChatPaper.aiChatPaper

大規模言語モデルの社会的推論を測る尺度としての人物プロンプティング

Persona Prompting as a Lens on LLM Social Reasoning

January 28, 2026
著者: Jing Yang, Moritz Hechtbauer, Elisabeth Khalilov, Evelyn Luise Brinkmann, Vera Schmitt, Nils Feldhus
cs.AI

要旨

社会的にセンシティブなタスク(ヘイトスピーチ検出など)において、大規模言語モデル(LLM)が生成する説明の質は、ユーザーの信頼やモデルの整合性といった要素に対して極めて重要である。パーソナプロンプティング(PP)は、モデルの生成をユーザー特定の方向へ誘導する手法としてますます利用されているが、モデルの理論的根拠(rationale)への影響は未解明のままである。本研究では、異なるシミュレートされた人口統計学的ペルソナを条件とした場合に、LLMが生成する理論的根拠がどのように変化するかを調査する。単語レベルの理論的根拠が注釈されたデータセットを用いて、異なる人口統計学的グループからの人間の注釈との一致度を測定し、PPがモデルのバイアスや人間との整合性に与える影響を評価する。3つのLLMにわたる評価結果から、以下の3つの主要な知見が得られた:(1)PPは最も主観的なタスク(ヘイトスピーチ)における分類精度を向上させるが、理論的根拠の質は低下させる。(2)シミュレートされたペルソナは、現実世界の対応する人口統計学的グループと整合せず、ペルソナ間の高い一致度は、モデルが有意な誘導に対して抵抗を示すことを意味する。(3)モデルは、PPの有無にかかわらず、一貫した人口統計学的バイアスと、コンテンツを有害として過剰にフラグ付けする強い傾向を示す。我々の知見は、PPが社会的にセンシティブなタスクにおける分類を改善し得る一方で、それはしばしば理論的根拠の質の低下という代償を伴い、根底にあるバイアスを緩和できないという重大なトレードオフを明らかにしており、その応用には注意を促すものである。
English
For socially sensitive tasks like hate speech detection, the quality of explanations from Large Language Models (LLMs) is crucial for factors like user trust and model alignment. While Persona prompting (PP) is increasingly used as a way to steer model towards user-specific generation, its effect on model rationales remains underexplored. We investigate how LLM-generated rationales vary when conditioned on different simulated demographic personas. Using datasets annotated with word-level rationales, we measure agreement with human annotations from different demographic groups, and assess the impact of PP on model bias and human alignment. Our evaluation across three LLMs results reveals three key findings: (1) PP improving classification on the most subjective task (hate speech) but degrading rationale quality. (2) Simulated personas fail to align with their real-world demographic counterparts, and high inter-persona agreement shows models are resistant to significant steering. (3) Models exhibit consistent demographic biases and a strong tendency to over-flag content as harmful, regardless of PP. Our findings reveal a critical trade-off: while PP can improve classification in socially-sensitive tasks, it often comes at the cost of rationale quality and fails to mitigate underlying biases, urging caution in its application.
PDF11January 30, 2026