ChatPaper.aiChatPaper

Sentienter Agent als Richter: Bewertung höherer sozialer Kognition in großen Sprachmodellen

Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models

May 1, 2025
Autoren: Bang Zhang, Ruotian Ma, Qingxuan Jiang, Peisong Wang, Jiaqi Chen, Zheng Xie, Xingyu Chen, Yue Wang, Fanghua Ye, Jian Li, Yifan Yang, Zhaopeng Tu, Xiaolong Li
cs.AI

Zusammenfassung

Die Bewertung, wie gut ein großes Sprachmodell (LLM) den Menschen versteht, anstatt lediglich Text, bleibt eine offene Herausforderung. Um diese Lücke zu schließen, führen wir Sentient Agent as a Judge (SAGE) ein, ein automatisiertes Bewertungsframework, das die höhere soziale Kognition eines LLM misst. SAGE instanziiert einen Sentient Agent, der menschliche emotionale Veränderungen und innere Gedanken während der Interaktion simuliert und so eine realistischere Bewertung des getesteten Modells in mehrschrittigen Gesprächen ermöglicht. In jedem Schritt analysiert der Agent (i) wie sich seine Emotion verändert, (ii) wie er sich fühlt und (iii) wie er antworten sollte, wodurch eine numerische Emotionskurve und interpretierbare innere Gedanken entstehen. Experimente mit 100 unterstützenden Dialog-Szenarien zeigen, dass der finale Sentient-Emotionsscore stark mit den Bewertungen des Barrett-Lennard Relationship Inventory (BLRI) und Äußerungs-Empathie-Metriken korreliert, was die psychologische Treue bestätigt. Wir erstellen zudem eine öffentliche Sentient Leaderboard, die 18 kommerzielle und Open-Source-Modelle abdeckt und erhebliche Lücken (bis zu 4x) zwischen führenden Systemen (GPT-4o-Latest, Gemini2.5-Pro) und früheren Baselines aufdeckt, die in konventionellen Leaderboards (z.B. Arena) nicht sichtbar sind. SAGE bietet somit ein prinzipielles, skalierbares und interpretierbares Werkzeug, um den Fortschritt hin zu wirklich empathischen und sozial kompetenten Sprachagenten zu verfolgen.
English
Assessing how well a large language model (LLM) understands human, rather than merely text, remains an open challenge. To bridge the gap, we introduce Sentient Agent as a Judge (SAGE), an automated evaluation framework that measures an LLM's higher-order social cognition. SAGE instantiates a Sentient Agent that simulates human-like emotional changes and inner thoughts during interaction, providing a more realistic evaluation of the tested model in multi-turn conversations. At every turn, the agent reasons about (i) how its emotion changes, (ii) how it feels, and (iii) how it should reply, yielding a numerical emotion trajectory and interpretable inner thoughts. Experiments on 100 supportive-dialogue scenarios show that the final Sentient emotion score correlates strongly with Barrett-Lennard Relationship Inventory (BLRI) ratings and utterance-level empathy metrics, validating psychological fidelity. We also build a public Sentient Leaderboard covering 18 commercial and open-source models that uncovers substantial gaps (up to 4x) between frontier systems (GPT-4o-Latest, Gemini2.5-Pro) and earlier baselines, gaps not reflected in conventional leaderboards (e.g., Arena). SAGE thus provides a principled, scalable and interpretable tool for tracking progress toward genuinely empathetic and socially adept language agents.

Summary

AI-Generated Summary

PDF163May 9, 2025