Sentienter Agent als Richter: Bewertung höherer sozialer Kognition in großen Sprachmodellen
Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models
May 1, 2025
Autoren: Bang Zhang, Ruotian Ma, Qingxuan Jiang, Peisong Wang, Jiaqi Chen, Zheng Xie, Xingyu Chen, Yue Wang, Fanghua Ye, Jian Li, Yifan Yang, Zhaopeng Tu, Xiaolong Li
cs.AI
Zusammenfassung
Die Bewertung, wie gut ein großes Sprachmodell (LLM) den Menschen versteht, anstatt lediglich Text, bleibt eine offene Herausforderung. Um diese Lücke zu schließen, führen wir Sentient Agent as a Judge (SAGE) ein, ein automatisiertes Bewertungsframework, das die höhere soziale Kognition eines LLM misst. SAGE instanziiert einen Sentient Agent, der menschliche emotionale Veränderungen und innere Gedanken während der Interaktion simuliert und so eine realistischere Bewertung des getesteten Modells in mehrschrittigen Gesprächen ermöglicht. In jedem Schritt analysiert der Agent (i) wie sich seine Emotion verändert, (ii) wie er sich fühlt und (iii) wie er antworten sollte, wodurch eine numerische Emotionskurve und interpretierbare innere Gedanken entstehen. Experimente mit 100 unterstützenden Dialog-Szenarien zeigen, dass der finale Sentient-Emotionsscore stark mit den Bewertungen des Barrett-Lennard Relationship Inventory (BLRI) und Äußerungs-Empathie-Metriken korreliert, was die psychologische Treue bestätigt. Wir erstellen zudem eine öffentliche Sentient Leaderboard, die 18 kommerzielle und Open-Source-Modelle abdeckt und erhebliche Lücken (bis zu 4x) zwischen führenden Systemen (GPT-4o-Latest, Gemini2.5-Pro) und früheren Baselines aufdeckt, die in konventionellen Leaderboards (z.B. Arena) nicht sichtbar sind. SAGE bietet somit ein prinzipielles, skalierbares und interpretierbares Werkzeug, um den Fortschritt hin zu wirklich empathischen und sozial kompetenten Sprachagenten zu verfolgen.
English
Assessing how well a large language model (LLM) understands human, rather
than merely text, remains an open challenge. To bridge the gap, we introduce
Sentient Agent as a Judge (SAGE), an automated evaluation framework that
measures an LLM's higher-order social cognition. SAGE instantiates a Sentient
Agent that simulates human-like emotional changes and inner thoughts during
interaction, providing a more realistic evaluation of the tested model in
multi-turn conversations. At every turn, the agent reasons about (i) how its
emotion changes, (ii) how it feels, and (iii) how it should reply, yielding a
numerical emotion trajectory and interpretable inner thoughts. Experiments on
100 supportive-dialogue scenarios show that the final Sentient emotion score
correlates strongly with Barrett-Lennard Relationship Inventory (BLRI) ratings
and utterance-level empathy metrics, validating psychological fidelity. We also
build a public Sentient Leaderboard covering 18 commercial and open-source
models that uncovers substantial gaps (up to 4x) between frontier systems
(GPT-4o-Latest, Gemini2.5-Pro) and earlier baselines, gaps not reflected in
conventional leaderboards (e.g., Arena). SAGE thus provides a principled,
scalable and interpretable tool for tracking progress toward genuinely
empathetic and socially adept language agents.Summary
AI-Generated Summary