SoCRATES: Auf dem Weg zu einer zuverlässigen automatischen Bewertung proaktiver LLM-Vermittlung über Domänen und sozio-kognitive Variationen hinweg

Zusammenfassung

Die Bewertung von KI-Vermittlern (LLM-Mediators) bleibt eine Herausforderung, da Mediation als zeitlich dynamischer Verlauf abläuft, der von den sich wandelnden Emotionen, Absichten und dem Kontext der Streitparteien geprägt wird. Bestehende Testumgebungen stützen sich auf wenige, von Experten verfasste Bereiche, variieren hauptsächlich in der strategischen Haltung und bewerten jede Runde in Bezug auf jedes Thema, was themenfremdes Rauschen erzeugt. Wir stellen SoCRATES vor, einen Benchmark zur Bewertung proaktiver LLM-Vermittler in realistischen, multi-domänen Testumgebungen. Der Benchmark konstruiert Szenarien aus realen Konflikten mittels einer agentenbasierten Pipeline über acht Domänen hinweg, untersucht fünf sozio-kognitive Anpassungsachsen (strategische Haltung, Parteienzusammensetzung, Vorgeschichtenlänge, emotionale Reaktivität und kulturelle Identität) und bewertet jedes Thema nur anhand der Runden, die es voranbringen, und zwar mittels eines themenspezifischen Evaluators. Der Evaluator erreicht eine Übereinstimmung von 0,82 mit menschlichen Experten, was den Wert einer rundenbasierten Basislinie mehr als verdoppelt. Beim Benchmarking von acht führenden LLMs stellen wir fest, dass selbst der stärkste Vermittler unter vielfältigen und realistischen Testbedingungen nur etwa ein Drittel der unvermittelten Konsenslücke schließt, wobei die Leistung je nach sozio-kognitiver Achse stark variiert – was unterstreicht, dass Fortschritte in der sozialen Anpassung an unterschiedliche Bedingungen liegen.

English

Evaluating LLM mediators remains challenging, as mediation unfolds as a real-time trajectory shaped by disputants' shifting emotions, intentions, and context. Existing testbeds rely on a few expert-authored domains, vary mainly strategic posture, and score every turn against every topic, introducing off-topic noise. We introduce SoCRATES, a benchmark for evaluating proactive LLM mediators in realistic, multi-domain testbeds. It constructs scenarios from real conflicts through an agentic pipeline across eight domains, probes five socio-cognitive adaptation axes (strategic posture, party composition, history length, emotional reactivity, and cultural identity), and scores each topic only on the turns that advance it via a topic-localized evaluator. The evaluator reaches 0.82 alignment with human experts, more than doubling a per-turn baseline. Benchmarking eight frontier LLMs, we find that even the strongest mediator closes only about a third of the unmediated consensus gap under diverse and realistic testbeds, with performance varying sharply by socio-cognitive axis, highlighting that progress lies in social adaptation to diverse conditions.