Demokratisierung der Diplomatie: Ein Rahmenwerk zur Bewertung beliebiger großer Sprachmodelle in der Vollversion von Diplomacy
Democratizing Diplomacy: A Harness for Evaluating Any Large Language Model on Full-Press Diplomacy
August 10, 2025
papers.authors: Alexander Duffy, Samuel J Paech, Ishana Shastri, Elizabeth Karpinski, Baptiste Alloui-Cros, Tyler Marques, Matthew Lyle Olson
cs.AI
papers.abstract
Wir präsentieren das erste Evaluationsframework, das es ermöglicht, beliebige lokale Large Language Models (LLMs) ohne Feinabstimmung oder spezialisiertes Training in vollständigen Diplomacy-Spielen einzusetzen. Bisherige Arbeiten erforderten entweder hochmoderne LLMs oder Feinabstimmung aufgrund der hohen Komplexität und Informationsdichte des Spielzustands in Diplomacy. In Kombination mit der hohen Varianz der Spiele machten diese Faktoren Diplomacy für Studien schwer zugänglich. In dieser Arbeit haben wir datengetriebene Iterationen genutzt, um eine textbasierte Darstellung des Spielzustands so zu optimieren, dass ein 24B-Modell zuverlässig Spiele ohne jegliche Feinabstimmung abschließen kann. Wir entwickeln Werkzeuge, um Hypothesentests und statistische Analysen zu erleichtern, und präsentieren Fallstudien zu Überzeugungsfähigkeit, aggressiven Spielstilen und der Leistung über eine Reihe von Modellen hinweg. Wir führen eine Vielzahl von Experimenten mit vielen populären LLMs durch und stellen fest, dass größere Modelle die beste Leistung erbringen, kleinere Modelle jedoch immer noch angemessen spielen. Wir führen auch die Critical State Analysis ein: ein experimentelles Protokoll zur schnellen Iteration und tiefgehenden Analyse von Schlüsselmomenten in einem Spiel. Unser Framework demokratisiert die Bewertung von strategischem Denken in LLMs, indem es die Notwendigkeit einer Feinabstimmung eliminiert, und liefert Einblicke, wie diese Fähigkeiten natürlich in weit verbreiteten LLMs entstehen. Unser Code ist im Anhang verfügbar und wird Open Source bereitgestellt.
English
We present the first evaluation harness that enables any out-of-the-box,
local, Large Language Models (LLMs) to play full-press Diplomacy without
fine-tuning or specialized training. Previous work required frontier LLMs, or
fine-tuning, due to the high complexity and information density of Diplomacy's
game state. Combined with the high variance of matches, these factors made
Diplomacy prohibitive for study. In this work, we used data-driven iteration to
optimize a textual game state representation such that a 24B model can reliably
complete matches without any fine tuning. We develop tooling to facilitate
hypothesis testing and statistical analysis, and we present case studies on
persuasion, aggressive playstyles, and performance across a range of models. We
conduct a variety of experiments across many popular LLMs, finding the larger
models perform the best, but the smaller models still play adequately. We also
introduce Critical State Analysis: an experimental protocol for rapidly
iterating and analyzing key moments in a game at depth. Our harness
democratizes the evaluation of strategic reasoning in LLMs by eliminating the
need for fine-tuning, and it provides insights into how these capabilities
emerge naturally from widely used LLMs. Our code is available in the supplement
and will be open sourced.