Демократизация дипломатии: инструмент для оценки любых крупных языковых моделей в полномасштабной дипломатии
Democratizing Diplomacy: A Harness for Evaluating Any Large Language Model on Full-Press Diplomacy
August 10, 2025
Авторы: Alexander Duffy, Samuel J Paech, Ishana Shastri, Elizabeth Karpinski, Baptiste Alloui-Cros, Tyler Marques, Matthew Lyle Olson
cs.AI
Аннотация
Мы представляем первую систему оценки, которая позволяет любым готовым локальным большим языковым моделям (LLM) играть в полную версию игры "Дипломатия" без необходимости тонкой настройки или специализированного обучения. Предыдущие работы требовали использования передовых LLM или тонкой настройки из-за высокой сложности и информационной насыщенности игрового состояния "Дипломатии". В сочетании с высокой вариативностью матчей эти факторы делали изучение "Дипломатии" чрезвычайно сложным. В данной работе мы использовали итерации на основе данных для оптимизации текстового представления игрового состояния, что позволило модели объемом 24 млрд параметров надежно завершать матчи без какой-либо тонкой настройки. Мы разработали инструменты для облегчения проверки гипотез и статистического анализа, а также представили кейс-стади по убеждению, агрессивным стилям игры и производительности на различных моделях. Мы провели множество экспериментов с использованием популярных LLM, обнаружив, что более крупные модели показывают наилучшие результаты, но меньшие модели также играют достаточно хорошо. Мы также вводим Анализ Критических Состояний: экспериментальный протокол для быстрого итеративного анализа ключевых моментов игры с высокой детализацией. Наша система демократизирует оценку стратегического мышления в LLM, устраняя необходимость тонкой настройки, и предоставляет инсайты о том, как эти способности естественным образом возникают в широко используемых LLM. Наш код доступен в приложении и будет опубликован в открытом доступе.
English
We present the first evaluation harness that enables any out-of-the-box,
local, Large Language Models (LLMs) to play full-press Diplomacy without
fine-tuning or specialized training. Previous work required frontier LLMs, or
fine-tuning, due to the high complexity and information density of Diplomacy's
game state. Combined with the high variance of matches, these factors made
Diplomacy prohibitive for study. In this work, we used data-driven iteration to
optimize a textual game state representation such that a 24B model can reliably
complete matches without any fine tuning. We develop tooling to facilitate
hypothesis testing and statistical analysis, and we present case studies on
persuasion, aggressive playstyles, and performance across a range of models. We
conduct a variety of experiments across many popular LLMs, finding the larger
models perform the best, but the smaller models still play adequately. We also
introduce Critical State Analysis: an experimental protocol for rapidly
iterating and analyzing key moments in a game at depth. Our harness
democratizes the evaluation of strategic reasoning in LLMs by eliminating the
need for fine-tuning, and it provides insights into how these capabilities
emerge naturally from widely used LLMs. Our code is available in the supplement
and will be open sourced.