ChatPaper.aiChatPaper

Democratizando a Diplomacia: Uma Estrutura para Avaliar Qualquer Modelo de Linguagem de Grande Escala na Diplomacia de Pressão Total

Democratizing Diplomacy: A Harness for Evaluating Any Large Language Model on Full-Press Diplomacy

August 10, 2025
Autores: Alexander Duffy, Samuel J Paech, Ishana Shastri, Elizabeth Karpinski, Baptiste Alloui-Cros, Tyler Marques, Matthew Lyle Olson
cs.AI

Resumo

Apresentamos o primeiro conjunto de ferramentas de avaliação que permite que qualquer modelo de linguagem de grande escala (LLM) local, pronto para uso, jogue Diplomacy no modo completo sem necessidade de ajuste fino ou treinamento especializado. Trabalhos anteriores exigiam LLMs de ponta ou ajuste fino devido à alta complexidade e densidade de informação do estado do jogo de Diplomacy. Combinados com a alta variabilidade das partidas, esses fatores tornavam o estudo de Diplomacy proibitivo. Neste trabalho, utilizamos iteração baseada em dados para otimizar uma representação textual do estado do jogo, de modo que um modelo de 24B possa concluir partidas de forma confiável sem qualquer ajuste fino. Desenvolvemos ferramentas para facilitar testes de hipóteses e análises estatísticas, e apresentamos estudos de caso sobre persuasão, estilos de jogo agressivos e desempenho em uma variedade de modelos. Realizamos diversos experimentos em vários LLMs populares, constatando que os modelos maiores têm o melhor desempenho, mas os modelos menores ainda jogam de forma adequada. Também introduzimos a Análise de Estado Crítico: um protocolo experimental para iterar e analisar rapidamente momentos-chave em um jogo com profundidade. Nosso conjunto de ferramentas democratiza a avaliação do raciocínio estratégico em LLMs ao eliminar a necessidade de ajuste fino, e fornece insights sobre como essas capacidades emergem naturalmente de LLMs amplamente utilizados. Nosso código está disponível no material suplementar e será disponibilizado como código aberto.
English
We present the first evaluation harness that enables any out-of-the-box, local, Large Language Models (LLMs) to play full-press Diplomacy without fine-tuning or specialized training. Previous work required frontier LLMs, or fine-tuning, due to the high complexity and information density of Diplomacy's game state. Combined with the high variance of matches, these factors made Diplomacy prohibitive for study. In this work, we used data-driven iteration to optimize a textual game state representation such that a 24B model can reliably complete matches without any fine tuning. We develop tooling to facilitate hypothesis testing and statistical analysis, and we present case studies on persuasion, aggressive playstyles, and performance across a range of models. We conduct a variety of experiments across many popular LLMs, finding the larger models perform the best, but the smaller models still play adequately. We also introduce Critical State Analysis: an experimental protocol for rapidly iterating and analyzing key moments in a game at depth. Our harness democratizes the evaluation of strategic reasoning in LLMs by eliminating the need for fine-tuning, and it provides insights into how these capabilities emerge naturally from widely used LLMs. Our code is available in the supplement and will be open sourced.
PDF102August 13, 2025