ChatPaper.aiChatPaper

Agente Senciente como Juiz: Avaliando Cognição Social de Ordem Superior em Modelos de Linguagem de Grande Escala

Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models

May 1, 2025
Autores: Bang Zhang, Ruotian Ma, Qingxuan Jiang, Peisong Wang, Jiaqi Chen, Zheng Xie, Xingyu Chen, Yue Wang, Fanghua Ye, Jian Li, Yifan Yang, Zhaopeng Tu, Xiaolong Li
cs.AI

Resumo

Avaliar o quão bem um modelo de linguagem de grande escala (LLM) compreende os seres humanos, em vez de meramente o texto, continua sendo um desafio em aberto. Para preencher essa lacuna, introduzimos o Agente Senciente como Juiz (SAGE, na sigla em inglês), um framework de avaliação automatizado que mede a cognição social de ordem superior de um LLM. O SAGE instancia um Agente Senciente que simula mudanças emocionais e pensamentos internos semelhantes aos humanos durante a interação, fornecendo uma avaliação mais realista do modelo testado em conversas de múltiplos turnos. A cada turno, o agente raciocina sobre (i) como sua emoção muda, (ii) como se sente e (iii) como deve responder, gerando uma trajetória emocional numérica e pensamentos internos interpretáveis. Experimentos em 100 cenários de diálogo de apoio mostram que a pontuação emocional final do Agente Senciente correlaciona-se fortemente com as avaliações do Inventário de Relacionamento Barrett-Lennard (BLRI) e métricas de empatia no nível do enunciado, validando a fidelidade psicológica. Também construímos um Leaderboard Senciente público que abrange 18 modelos comerciais e de código aberto, revelando lacunas substanciais (até 4x) entre sistemas de fronteira (GPT-4o-Latest, Gemini2.5-Pro) e baselines anteriores, lacunas não refletidas em leaderboards convencionais (por exemplo, Arena). Assim, o SAGE fornece uma ferramenta fundamentada, escalável e interpretável para acompanhar o progresso em direção a agentes de linguagem genuinamente empáticos e socialmente habilidosos.
English
Assessing how well a large language model (LLM) understands human, rather than merely text, remains an open challenge. To bridge the gap, we introduce Sentient Agent as a Judge (SAGE), an automated evaluation framework that measures an LLM's higher-order social cognition. SAGE instantiates a Sentient Agent that simulates human-like emotional changes and inner thoughts during interaction, providing a more realistic evaluation of the tested model in multi-turn conversations. At every turn, the agent reasons about (i) how its emotion changes, (ii) how it feels, and (iii) how it should reply, yielding a numerical emotion trajectory and interpretable inner thoughts. Experiments on 100 supportive-dialogue scenarios show that the final Sentient emotion score correlates strongly with Barrett-Lennard Relationship Inventory (BLRI) ratings and utterance-level empathy metrics, validating psychological fidelity. We also build a public Sentient Leaderboard covering 18 commercial and open-source models that uncovers substantial gaps (up to 4x) between frontier systems (GPT-4o-Latest, Gemini2.5-Pro) and earlier baselines, gaps not reflected in conventional leaderboards (e.g., Arena). SAGE thus provides a principled, scalable and interpretable tool for tracking progress toward genuinely empathetic and socially adept language agents.
PDF284February 7, 2026