SoCRATES: Naar betrouwbare geautomatiseerde evaluatie van proactieve LLM-mediatie over domeinen en sociaal-cognitieve variaties

Samenvatting

Het evalueren van LLM-bemiddelaars blijft uitdagend, omdat bemiddeling zich ontvouwt als een real-time traject dat wordt gevormd door de veranderende emoties, intenties en context van de partijen in conflict. Bestaande testomgevingen vertrouwen op een paar door experts geschreven domeinen, variëren voornamelijk in strategische houding en beoordelen elke beurt op elk onderwerp, wat ruis buiten het onderwerp introduceert. Wij introduceren SoCRATES, een benchmark voor het evalueren van proactieve LLM-bemiddelaars in realistische, multidomein-testomgevingen. Het construeert scenario's uit echte conflicten via een agentische pipeline over acht domeinen, onderzoekt vijf sociaal-cognitieve aanpassingsassen (strategische houding, partijsamenstelling, geschiedenislengte, emotionele reactiviteit en culturele identiteit) en beoordeelt elk onderwerp alleen op de beurten die het vooruithelpen via een onderwerpsgelokaliseerde beoordelaar. De beoordelaar bereikt een overeenstemming van 0,82 met menselijke experts, meer dan een verdubbeling van een per-beurt baseline. Bij het benchmarken van acht geavanceerde LLM's vinden we dat zelfs de sterkste bemiddelaar slechts ongeveer een derde van de onbemiddelde consensuskloof overbrugt in diverse en realistische testomgevingen, met prestaties die sterk variëren per sociaal-cognitieve as, wat benadrukt dat vooruitgang ligt in sociale aanpassing aan diverse omstandigheden.

English

Evaluating LLM mediators remains challenging, as mediation unfolds as a real-time trajectory shaped by disputants' shifting emotions, intentions, and context. Existing testbeds rely on a few expert-authored domains, vary mainly strategic posture, and score every turn against every topic, introducing off-topic noise. We introduce SoCRATES, a benchmark for evaluating proactive LLM mediators in realistic, multi-domain testbeds. It constructs scenarios from real conflicts through an agentic pipeline across eight domains, probes five socio-cognitive adaptation axes (strategic posture, party composition, history length, emotional reactivity, and cultural identity), and scores each topic only on the turns that advance it via a topic-localized evaluator. The evaluator reaches 0.82 alignment with human experts, more than doubling a per-turn baseline. Benchmarking eight frontier LLMs, we find that even the strongest mediator closes only about a third of the unmediated consensus gap under diverse and realistic testbeds, with performance varying sharply by socio-cognitive axis, highlighting that progress lies in social adaptation to diverse conditions.