Сентиентный агент как судья: оценка социального познания высшего порядка в крупных языковых моделях

Аннотация

Оценка того, насколько хорошо крупная языковая модель (LLM) понимает человека, а не просто текст, остается открытой проблемой. Чтобы сократить этот разрыв, мы представляем Sentient Agent as a Judge (SAGE) — автоматизированную систему оценки, которая измеряет высшие формы социального познания LLM. SAGE реализует Sentient Agent, который симулирует человеческие эмоциональные изменения и внутренние мысли в процессе взаимодействия, обеспечивая более реалистичную оценку тестируемой модели в многоходовых диалогах. На каждом шаге агент анализирует (i) как изменяются его эмоции, (ii) что он чувствует и (iii) как ему следует ответить, формируя числовую траекторию эмоций и интерпретируемые внутренние мысли. Эксперименты на 100 сценариях поддерживающих диалогов показывают, что итоговый показатель Sentient Emotion Score сильно коррелирует с оценками по шкале Barrett-Lennard Relationship Inventory (BLRI) и метриками эмпатии на уровне высказываний, подтверждая психологическую достоверность. Мы также создали публичный Sentient Leaderboard, охватывающий 18 коммерческих и открытых моделей, который выявляет значительные разрывы (до 4 раз) между передовыми системами (GPT-4o-Latest, Gemini2.5-Pro) и более ранними базовыми моделями, что не отражено в традиционных рейтингах (например, Arena). Таким образом, SAGE предоставляет принципиальный, масштабируемый и интерпретируемый инструмент для отслеживания прогресса в создании по-настоящему эмпатичных и социально адаптированных языковых агентов.

English

Assessing how well a large language model (LLM) understands human, rather than merely text, remains an open challenge. To bridge the gap, we introduce Sentient Agent as a Judge (SAGE), an automated evaluation framework that measures an LLM's higher-order social cognition. SAGE instantiates a Sentient Agent that simulates human-like emotional changes and inner thoughts during interaction, providing a more realistic evaluation of the tested model in multi-turn conversations. At every turn, the agent reasons about (i) how its emotion changes, (ii) how it feels, and (iii) how it should reply, yielding a numerical emotion trajectory and interpretable inner thoughts. Experiments on 100 supportive-dialogue scenarios show that the final Sentient emotion score correlates strongly with Barrett-Lennard Relationship Inventory (BLRI) ratings and utterance-level empathy metrics, validating psychological fidelity. We also build a public Sentient Leaderboard covering 18 commercial and open-source models that uncovers substantial gaps (up to 4x) between frontier systems (GPT-4o-Latest, Gemini2.5-Pro) and earlier baselines, gaps not reflected in conventional leaderboards (e.g., Arena). SAGE thus provides a principled, scalable and interpretable tool for tracking progress toward genuinely empathetic and socially adept language agents.

Сентиентный агент как судья: оценка социального познания высшего порядка в крупных языковых моделях

Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models

Аннотация

Support