ChatPaper.aiChatPaper

Sentient Agent als Rechter: Evaluatie van Hogere-Orde Sociaal Cognitie in Grote Taalmodellen

Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models

May 1, 2025
Auteurs: Bang Zhang, Ruotian Ma, Qingxuan Jiang, Peisong Wang, Jiaqi Chen, Zheng Xie, Xingyu Chen, Yue Wang, Fanghua Ye, Jian Li, Yifan Yang, Zhaopeng Tu, Xiaolong Li
cs.AI

Samenvatting

Het beoordelen van hoe goed een groot taalmodel (LLM) menselijk begrip heeft, in plaats van slechts tekst, blijft een open uitdaging. Om deze kloof te overbruggen, introduceren we Sentient Agent as a Judge (SAGE), een geautomatiseerd evaluatieraamwerk dat de hogere-orde sociale cognitie van een LLM meet. SAGE implementeert een Sentient Agent die mensachtige emotionele veranderingen en innerlijke gedachten simuleert tijdens interactie, wat een realistischer evaluatie biedt van het geteste model in meerzijdige gesprekken. Bij elke beurt redeneert de agent over (i) hoe zijn emotie verandert, (ii) hoe hij zich voelt, en (iii) hoe hij zou moeten antwoorden, wat resulteert in een numerieke emotietrajectorie en interpreteerbare innerlijke gedachten. Experimenten met 100 ondersteunende-dialoogscenario's tonen aan dat de uiteindelijke Sentient-emotiescore sterk correleert met Barrett-Lennard Relationship Inventory (BLRI)-beoordelingen en uiting-niveau empathiemetrieken, wat de psychologische geloofwaardigheid valideert. We bouwen ook een openbare Sentient Leaderboard die 18 commerciële en open-source modellen omvat, wat aanzienlijke verschillen (tot 4x) onthult tussen toonaangevende systemen (GPT-4o-Latest, Gemini2.5-Pro) en eerdere baselines, verschillen die niet worden weerspiegeld in conventionele leaderboards (bijv. Arena). SAGE biedt dus een principieel, schaalbaar en interpreteerbaar instrument om de voortgang te volgen naar echt empathische en sociaal vaardige taalagentschappen.
English
Assessing how well a large language model (LLM) understands human, rather than merely text, remains an open challenge. To bridge the gap, we introduce Sentient Agent as a Judge (SAGE), an automated evaluation framework that measures an LLM's higher-order social cognition. SAGE instantiates a Sentient Agent that simulates human-like emotional changes and inner thoughts during interaction, providing a more realistic evaluation of the tested model in multi-turn conversations. At every turn, the agent reasons about (i) how its emotion changes, (ii) how it feels, and (iii) how it should reply, yielding a numerical emotion trajectory and interpretable inner thoughts. Experiments on 100 supportive-dialogue scenarios show that the final Sentient emotion score correlates strongly with Barrett-Lennard Relationship Inventory (BLRI) ratings and utterance-level empathy metrics, validating psychological fidelity. We also build a public Sentient Leaderboard covering 18 commercial and open-source models that uncovers substantial gaps (up to 4x) between frontier systems (GPT-4o-Latest, Gemini2.5-Pro) and earlier baselines, gaps not reflected in conventional leaderboards (e.g., Arena). SAGE thus provides a principled, scalable and interpretable tool for tracking progress toward genuinely empathetic and socially adept language agents.
PDF274May 9, 2025