Democratizando la Diplomacia: Un Marco para Evaluar Cualquier Modelo de Lenguaje de Gran Escala en la Diplomacia de Presión Completa
Democratizing Diplomacy: A Harness for Evaluating Any Large Language Model on Full-Press Diplomacy
August 10, 2025
Autores: Alexander Duffy, Samuel J Paech, Ishana Shastri, Elizabeth Karpinski, Baptiste Alloui-Cros, Tyler Marques, Matthew Lyle Olson
cs.AI
Resumen
Presentamos el primer conjunto de herramientas de evaluación que permite que cualquier modelo de lenguaje grande (LLM, por sus siglas en inglés) local, sin modificaciones previas, juegue partidas completas de Diplomacy sin necesidad de ajuste fino o entrenamiento especializado. Trabajos anteriores requerían el uso de LLMs de vanguardia o ajuste fino debido a la alta complejidad y densidad de información del estado del juego en Diplomacy. Combinado con la alta variabilidad de las partidas, estos factores hacían que el estudio de Diplomacy fuera prohibitivo. En este trabajo, utilizamos iteración basada en datos para optimizar una representación textual del estado del juego, de modo que un modelo de 24B pueda completar partidas de manera confiable sin ningún ajuste fino. Desarrollamos herramientas para facilitar la prueba de hipótesis y el análisis estadístico, y presentamos estudios de casos sobre persuasión, estilos de juego agresivos y rendimiento en una variedad de modelos. Realizamos una serie de experimentos en varios LLMs populares, encontrando que los modelos más grandes tienen el mejor desempeño, aunque los modelos más pequeños aún juegan de manera adecuada. También introducimos el Análisis de Estado Crítico: un protocolo experimental para iterar y analizar rápidamente momentos clave en un juego con profundidad. Nuestro conjunto de herramientas democratiza la evaluación del razonamiento estratégico en LLMs al eliminar la necesidad de ajuste fino, y proporciona insights sobre cómo estas capacidades emergen naturalmente en LLMs ampliamente utilizados. Nuestro código está disponible en el material complementario y será de código abierto.
English
We present the first evaluation harness that enables any out-of-the-box,
local, Large Language Models (LLMs) to play full-press Diplomacy without
fine-tuning or specialized training. Previous work required frontier LLMs, or
fine-tuning, due to the high complexity and information density of Diplomacy's
game state. Combined with the high variance of matches, these factors made
Diplomacy prohibitive for study. In this work, we used data-driven iteration to
optimize a textual game state representation such that a 24B model can reliably
complete matches without any fine tuning. We develop tooling to facilitate
hypothesis testing and statistical analysis, and we present case studies on
persuasion, aggressive playstyles, and performance across a range of models. We
conduct a variety of experiments across many popular LLMs, finding the larger
models perform the best, but the smaller models still play adequately. We also
introduce Critical State Analysis: an experimental protocol for rapidly
iterating and analyzing key moments in a game at depth. Our harness
democratizes the evaluation of strategic reasoning in LLMs by eliminating the
need for fine-tuning, and it provides insights into how these capabilities
emerge naturally from widely used LLMs. Our code is available in the supplement
and will be open sourced.