ChatPaper.aiChatPaper

SoCRATES: 도메인 및 사회인지적 변이 전반에 걸친 사전적 LLM 중재의 신뢰할 수 있는 자동 평가를 위하여

SoCRATES: Towards Reliable Automated Evaluation of Proactive LLM Mediation across Domains and Socio-cognitive Variations

June 4, 2026
저자: Taewon Yun, Hyeonseong Park, Jeonghwan Choi, Hayoon Park, Yeeun Choi, Hwanjun Song
cs.AI

초록

LLM 중재자를 평가하는 것은 여전히 어려운 과제이다. 중재는 분쟁 당사자의 변화하는 감정, 의도 및 맥락에 의해 형성되는 실시간 궤적으로 전개되기 때문이다. 기존 테스트베드는 소수의 전문가 작성 도메인에 의존하며, 주로 전략적 태세에서 차이를 보이고, 모든 발화를 모든 주제에 대해 점수화하여 주제 외 잡음을 유발한다. 우리는 SoCRATES를 소개한다. 이는 현실적이고 다중 도메인 테스트베드에서 능동적 LLM 중재자를 평가하기 위한 벤치마크이다. SoCRATES는 8개 도메인에 걸친 에이전트 파이프라인을 통해 실제 갈등에서 시나리오를 구축하고, 다섯 가지 사회인지적 적응 축(전략적 태세, 당사자 구성, 대화 이력 길이, 정서적 반응성, 문화적 정체성)을 탐구하며, 주제별 평가자를 통해 각 주제를 진전시키는 발화에 대해서만 점수화한다. 이 평가자는 인간 전문가와 0.82의 일치도를 달성하여, 발화별 기준선 대비 두 배 이상의 성능을 보인다. 8개의 최첨단 LLM을 벤치마킹한 결과, 가장 강력한 중재자조차도 다양하고 현실적인 테스트베드에서 중재되지 않은 합의 격차의 약 3분의 1만을 해소하며, 성능이 사회인지적 축에 따라 급격히 달라져, 진전은 다양한 조건에 대한 사회적 적응에 있음을 시사한다.
English
Evaluating LLM mediators remains challenging, as mediation unfolds as a real-time trajectory shaped by disputants' shifting emotions, intentions, and context. Existing testbeds rely on a few expert-authored domains, vary mainly strategic posture, and score every turn against every topic, introducing off-topic noise. We introduce SoCRATES, a benchmark for evaluating proactive LLM mediators in realistic, multi-domain testbeds. It constructs scenarios from real conflicts through an agentic pipeline across eight domains, probes five socio-cognitive adaptation axes (strategic posture, party composition, history length, emotional reactivity, and cultural identity), and scores each topic only on the turns that advance it via a topic-localized evaluator. The evaluator reaches 0.82 alignment with human experts, more than doubling a per-turn baseline. Benchmarking eight frontier LLMs, we find that even the strongest mediator closes only about a third of the unmediated consensus gap under diverse and realistic testbeds, with performance varying sharply by socio-cognitive axis, highlighting that progress lies in social adaptation to diverse conditions.