Sentient Agent als Rechter: Evaluatie van Hogere-Orde Sociaal Cognitie in Grote Taalmodellen
Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models
May 1, 2025
Auteurs: Bang Zhang, Ruotian Ma, Qingxuan Jiang, Peisong Wang, Jiaqi Chen, Zheng Xie, Xingyu Chen, Yue Wang, Fanghua Ye, Jian Li, Yifan Yang, Zhaopeng Tu, Xiaolong Li
cs.AI
Samenvatting
Het beoordelen van hoe goed een groot taalmodel (LLM) menselijk begrip heeft, in plaats van slechts tekst, blijft een open uitdaging. Om deze kloof te overbruggen, introduceren we Sentient Agent as a Judge (SAGE), een geautomatiseerd evaluatieraamwerk dat de hogere-orde sociale cognitie van een LLM meet. SAGE implementeert een Sentient Agent die mensachtige emotionele veranderingen en innerlijke gedachten simuleert tijdens interactie, wat een realistischer evaluatie biedt van het geteste model in meerzijdige gesprekken. Bij elke beurt redeneert de agent over (i) hoe zijn emotie verandert, (ii) hoe hij zich voelt, en (iii) hoe hij zou moeten antwoorden, wat resulteert in een numerieke emotietrajectorie en interpreteerbare innerlijke gedachten. Experimenten met 100 ondersteunende-dialoogscenario's tonen aan dat de uiteindelijke Sentient-emotiescore sterk correleert met Barrett-Lennard Relationship Inventory (BLRI)-beoordelingen en uiting-niveau empathiemetrieken, wat de psychologische geloofwaardigheid valideert. We bouwen ook een openbare Sentient Leaderboard die 18 commerciële en open-source modellen omvat, wat aanzienlijke verschillen (tot 4x) onthult tussen toonaangevende systemen (GPT-4o-Latest, Gemini2.5-Pro) en eerdere baselines, verschillen die niet worden weerspiegeld in conventionele leaderboards (bijv. Arena). SAGE biedt dus een principieel, schaalbaar en interpreteerbaar instrument om de voortgang te volgen naar echt empathische en sociaal vaardige taalagentschappen.
English
Assessing how well a large language model (LLM) understands human, rather
than merely text, remains an open challenge. To bridge the gap, we introduce
Sentient Agent as a Judge (SAGE), an automated evaluation framework that
measures an LLM's higher-order social cognition. SAGE instantiates a Sentient
Agent that simulates human-like emotional changes and inner thoughts during
interaction, providing a more realistic evaluation of the tested model in
multi-turn conversations. At every turn, the agent reasons about (i) how its
emotion changes, (ii) how it feels, and (iii) how it should reply, yielding a
numerical emotion trajectory and interpretable inner thoughts. Experiments on
100 supportive-dialogue scenarios show that the final Sentient emotion score
correlates strongly with Barrett-Lennard Relationship Inventory (BLRI) ratings
and utterance-level empathy metrics, validating psychological fidelity. We also
build a public Sentient Leaderboard covering 18 commercial and open-source
models that uncovers substantial gaps (up to 4x) between frontier systems
(GPT-4o-Latest, Gemini2.5-Pro) and earlier baselines, gaps not reflected in
conventional leaderboards (e.g., Arena). SAGE thus provides a principled,
scalable and interpretable tool for tracking progress toward genuinely
empathetic and socially adept language agents.