SoCRATES : Vers une évaluation automatisée fiable de la médiation proactive des LLM à travers les domaines et les variations socio-cognitives

Résumé

Évaluer les médiateurs LLM reste difficile, car la médiation se déploie comme une trajectoire en temps réel façonnée par les émotions, intentions et contextes changeants des parties en conflit. Les bancs d’essai existants s’appuient sur quelques domaines rédigés par des experts, varient principalement en posture stratégique et évaluent chaque tour de parole par rapport à chaque sujet, introduisant ainsi un bruit hors-sujet. Nous présentons SoCRATES, un benchmark pour évaluer les médiateurs LLM proactifs dans des bancs d’essai réalistes et multi-domaines. Il construit des scénarios à partir de conflits réels via un pipeline agentique couvrant huit domaines, explore cinq axes d’adaptation socio-cognitive (posture stratégique, composition des parties, longueur de l’historique, réactivité émotionnelle et identité culturelle) et n’évalue chaque sujet que sur les tours de parole qui le font progresser, grâce à un évaluateur localisé par sujet. Cet évaluateur atteint un alignement de 0,82 avec des experts humains, plus du double d’un score de référence par tour. En évaluant huit LLM de pointe, nous constatons que même le meilleur médiateur ne comble qu’environ un tiers de l’écart de consensus non médié dans des bancs d’essai diversifiés et réalistes, avec des performances variant fortement selon l’axe socio-cognitif, soulignant que le progrès réside dans l’adaptation sociale à des conditions diverses.

English

Evaluating LLM mediators remains challenging, as mediation unfolds as a real-time trajectory shaped by disputants' shifting emotions, intentions, and context. Existing testbeds rely on a few expert-authored domains, vary mainly strategic posture, and score every turn against every topic, introducing off-topic noise. We introduce SoCRATES, a benchmark for evaluating proactive LLM mediators in realistic, multi-domain testbeds. It constructs scenarios from real conflicts through an agentic pipeline across eight domains, probes five socio-cognitive adaptation axes (strategic posture, party composition, history length, emotional reactivity, and cultural identity), and scores each topic only on the turns that advance it via a topic-localized evaluator. The evaluator reaches 0.82 alignment with human experts, more than doubling a per-turn baseline. Benchmarking eight frontier LLMs, we find that even the strongest mediator closes only about a third of the unmediated consensus gap under diverse and realistic testbeds, with performance varying sharply by socio-cognitive axis, highlighting that progress lies in social adaptation to diverse conditions.