SoCRATES: Hacia una Evaluación Automatizada Fiable de la Mediación Proactiva de LLM a través de Dominios y Variaciones Sociocognitivas

Resumen

Evaluar mediadores LLM sigue siendo un desafío, ya que la mediación se desarrolla como una trayectoria en tiempo real moldeada por las emociones, intenciones y contexto cambiantes de las partes en conflicto. Los bancos de pruebas existentes se basan en unos pocos dominios redactados por expertos, varían principalmente en la postura estratégica y puntúan cada turno frente a cada tema, introduciendo ruido fuera de tema. Presentamos SoCRATES, un punto de referencia para evaluar mediadores LLM proactivos en bancos de pruebas realistas y multidominio. Construye escenarios a partir de conflictos reales mediante un flujo de trabajo agéntico en ocho dominios, explora cinco ejes de adaptación sociocognitiva (postura estratégica, composición de las partes, longitud del historial, reactividad emocional e identidad cultural) y puntúa cada tema solo en los turnos que lo avanzan mediante un evaluador localizado por temas. El evaluador alcanza una alineación de 0,82 con expertos humanos, más que duplicando una línea base por turno. Al evaluar ocho LLMs de frontera, encontramos que incluso el mediador más fuerte cierra solo aproximadamente un tercio de la brecha de consenso no mediada en bancos de pruebas diversos y realistas, con un rendimiento que varía drásticamente según el eje sociocognitivo, lo que resalta que el progreso reside en la adaptación social a condiciones diversas.

English

Evaluating LLM mediators remains challenging, as mediation unfolds as a real-time trajectory shaped by disputants' shifting emotions, intentions, and context. Existing testbeds rely on a few expert-authored domains, vary mainly strategic posture, and score every turn against every topic, introducing off-topic noise. We introduce SoCRATES, a benchmark for evaluating proactive LLM mediators in realistic, multi-domain testbeds. It constructs scenarios from real conflicts through an agentic pipeline across eight domains, probes five socio-cognitive adaptation axes (strategic posture, party composition, history length, emotional reactivity, and cultural identity), and scores each topic only on the turns that advance it via a topic-localized evaluator. The evaluator reaches 0.82 alignment with human experts, more than doubling a per-turn baseline. Benchmarking eight frontier LLMs, we find that even the strongest mediator closes only about a third of the unmediated consensus gap under diverse and realistic testbeds, with performance varying sharply by socio-cognitive axis, highlighting that progress lies in social adaptation to diverse conditions.