センチエント・エージェントとしての裁判官:大規模言語モデルにおける高次社会認知の評価
Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models
May 1, 2025
著者: Bang Zhang, Ruotian Ma, Qingxuan Jiang, Peisong Wang, Jiaqi Chen, Zheng Xie, Xingyu Chen, Yue Wang, Fanghua Ye, Jian Li, Yifan Yang, Zhaopeng Tu, Xiaolong Li
cs.AI
要旨
大規模言語モデル(LLM)がテキストだけでなく人間をどれだけ理解しているかを評価することは、依然として未解決の課題である。このギャップを埋めるため、我々は「Sentient Agent as a Judge(SAGE)」を導入する。これは、LLMの高次社会的認知を測定する自動評価フレームワークである。SAGEは、人間のような感情変化や内面的思考をシミュレートするSentient Agentを具現化し、多ターン会話における被検証モデルのより現実的な評価を提供する。各ターンにおいて、エージェントは(i)自身の感情がどのように変化するか、(ii)どのように感じているか、(iii)どのように返信すべきかを推論し、数値的な感情軌跡と解釈可能な内面的思考を生成する。100の支援的対話シナリオでの実験により、最終的なSentient感情スコアがBarrett-Lennard Relationship Inventory(BLRI)評価や発話レベルの共感指標と強く相関することが示され、心理学的忠実性が検証された。また、18の商用およびオープンソースモデルをカバーする公開Sentient Leaderboardを構築し、最先端システム(GPT-4o-Latest、Gemini2.5-Pro)と初期のベースラインとの間に最大4倍の大きなギャップがあることを明らかにした。このギャップは、従来のリーダーボード(例:Arena)には反映されていない。したがって、SAGEは、真に共感的で社会的に適応した言語エージェントに向けた進捗を追跡するための原理的でスケーラブルかつ解釈可能なツールを提供する。
English
Assessing how well a large language model (LLM) understands human, rather
than merely text, remains an open challenge. To bridge the gap, we introduce
Sentient Agent as a Judge (SAGE), an automated evaluation framework that
measures an LLM's higher-order social cognition. SAGE instantiates a Sentient
Agent that simulates human-like emotional changes and inner thoughts during
interaction, providing a more realistic evaluation of the tested model in
multi-turn conversations. At every turn, the agent reasons about (i) how its
emotion changes, (ii) how it feels, and (iii) how it should reply, yielding a
numerical emotion trajectory and interpretable inner thoughts. Experiments on
100 supportive-dialogue scenarios show that the final Sentient emotion score
correlates strongly with Barrett-Lennard Relationship Inventory (BLRI) ratings
and utterance-level empathy metrics, validating psychological fidelity. We also
build a public Sentient Leaderboard covering 18 commercial and open-source
models that uncovers substantial gaps (up to 4x) between frontier systems
(GPT-4o-Latest, Gemini2.5-Pro) and earlier baselines, gaps not reflected in
conventional leaderboards (e.g., Arena). SAGE thus provides a principled,
scalable and interpretable tool for tracking progress toward genuinely
empathetic and socially adept language agents.Summary
AI-Generated Summary