ChatPaper.aiChatPaper

Démocratiser la diplomatie : Un outil pour évaluer tout modèle de langage de grande envergure sur le jeu Diplomacy en version complète

Democratizing Diplomacy: A Harness for Evaluating Any Large Language Model on Full-Press Diplomacy

August 10, 2025
papers.authors: Alexander Duffy, Samuel J Paech, Ishana Shastri, Elizabeth Karpinski, Baptiste Alloui-Cros, Tyler Marques, Matthew Lyle Olson
cs.AI

papers.abstract

Nous présentons le premier dispositif d'évaluation permettant à tout modèle de langage de grande taille (LLM) local, prêt à l'emploi, de jouer à Diplomacy en mode complet sans nécessiter de fine-tuning ou d'entraînement spécialisé. Les travaux précédents exigeaient des LLM de pointe ou un fine-tuning, en raison de la complexité élevée et de la densité d'information de l'état du jeu dans Diplomacy. Combinés à la forte variabilité des matchs, ces facteurs rendaient Diplomacy difficile à étudier. Dans ce travail, nous avons utilisé une itération basée sur les données pour optimiser une représentation textuelle de l'état du jeu, permettant ainsi à un modèle de 24 milliards de paramètres de terminer des parties de manière fiable sans aucun fine-tuning. Nous avons développé des outils pour faciliter les tests d'hypothèses et l'analyse statistique, et nous présentons des études de cas sur la persuasion, les styles de jeu agressifs et les performances sur une gamme de modèles. Nous avons mené diverses expériences sur de nombreux LLM populaires, constatant que les modèles plus grands obtiennent les meilleurs résultats, mais que les modèles plus petits jouent encore de manière adéquate. Nous introduisons également l'Analyse des États Critiques : un protocole expérimental pour itérer et analyser rapidement les moments clés d'une partie en profondeur. Notre dispositif démocratise l'évaluation du raisonnement stratégique dans les LLM en éliminant le besoin de fine-tuning, et il fournit des insights sur la manière dont ces capacités émergent naturellement des LLM largement utilisés. Notre code est disponible dans les annexes et sera open source.
English
We present the first evaluation harness that enables any out-of-the-box, local, Large Language Models (LLMs) to play full-press Diplomacy without fine-tuning or specialized training. Previous work required frontier LLMs, or fine-tuning, due to the high complexity and information density of Diplomacy's game state. Combined with the high variance of matches, these factors made Diplomacy prohibitive for study. In this work, we used data-driven iteration to optimize a textual game state representation such that a 24B model can reliably complete matches without any fine tuning. We develop tooling to facilitate hypothesis testing and statistical analysis, and we present case studies on persuasion, aggressive playstyles, and performance across a range of models. We conduct a variety of experiments across many popular LLMs, finding the larger models perform the best, but the smaller models still play adequately. We also introduce Critical State Analysis: an experimental protocol for rapidly iterating and analyzing key moments in a game at depth. Our harness democratizes the evaluation of strategic reasoning in LLMs by eliminating the need for fine-tuning, and it provides insights into how these capabilities emerge naturally from widely used LLMs. Our code is available in the supplement and will be open sourced.
PDF92August 13, 2025