Democratizzazione della Diplomazia: Uno Strumento per Valutare Qualsiasi Modello Linguistico di Grandi Dimensioni su Diplomazia a Pieno Regime
Democratizing Diplomacy: A Harness for Evaluating Any Large Language Model on Full-Press Diplomacy
August 10, 2025
Autori: Alexander Duffy, Samuel J Paech, Ishana Shastri, Elizabeth Karpinski, Baptiste Alloui-Cros, Tyler Marques, Matthew Lyle Olson
cs.AI
Abstract
Presentiamo il primo sistema di valutazione che consente a qualsiasi modello linguistico di grandi dimensioni (LLM) locale, utilizzabile "out-of-the-box", di giocare a Diplomacy in modalità completa senza necessità di fine-tuning o addestramento specializzato. I lavori precedenti richiedevano LLM all'avanguardia o operazioni di fine-tuning, a causa dell'elevata complessità e densità informativa dello stato di gioco di Diplomacy. Combinati con l'elevata variabilità delle partite, questi fattori rendevano Diplomacy proibitivo da studiare. In questo lavoro, abbiamo utilizzato un'iterazione basata sui dati per ottimizzare una rappresentazione testuale dello stato di gioco, in modo che un modello da 24B possa completare le partite in modo affidabile senza alcun fine-tuning. Abbiamo sviluppato strumenti per facilitare il test di ipotesi e l'analisi statistica, e presentiamo casi di studio sulla persuasione, sugli stili di gioco aggressivi e sulle prestazioni attraverso una gamma di modelli. Abbiamo condotto una varietà di esperimenti su molti LLM popolari, riscontrando che i modelli più grandi performano meglio, ma i modelli più piccoli giocano comunque in modo adeguato. Introduciamo inoltre l'Analisi degli Stati Critici: un protocollo sperimentale per iterare rapidamente e analizzare in profondità i momenti chiave di una partita. Il nostro sistema democratizza la valutazione del ragionamento strategico negli LLM eliminando la necessità di fine-tuning e fornisce approfondimenti su come queste capacità emergono naturalmente da LLM ampiamente utilizzati. Il nostro codice è disponibile nel materiale supplementare e sarà reso open source.
English
We present the first evaluation harness that enables any out-of-the-box,
local, Large Language Models (LLMs) to play full-press Diplomacy without
fine-tuning or specialized training. Previous work required frontier LLMs, or
fine-tuning, due to the high complexity and information density of Diplomacy's
game state. Combined with the high variance of matches, these factors made
Diplomacy prohibitive for study. In this work, we used data-driven iteration to
optimize a textual game state representation such that a 24B model can reliably
complete matches without any fine tuning. We develop tooling to facilitate
hypothesis testing and statistical analysis, and we present case studies on
persuasion, aggressive playstyles, and performance across a range of models. We
conduct a variety of experiments across many popular LLMs, finding the larger
models perform the best, but the smaller models still play adequately. We also
introduce Critical State Analysis: an experimental protocol for rapidly
iterating and analyzing key moments in a game at depth. Our harness
democratizes the evaluation of strategic reasoning in LLMs by eliminating the
need for fine-tuning, and it provides insights into how these capabilities
emerge naturally from widely used LLMs. Our code is available in the supplement
and will be open sourced.