민주화된 외교: 풀프레스 디플로매시에서 모든 대규모 언어 모델 평가를 위한 도구
Democratizing Diplomacy: A Harness for Evaluating Any Large Language Model on Full-Press Diplomacy
August 10, 2025
저자: Alexander Duffy, Samuel J Paech, Ishana Shastri, Elizabeth Karpinski, Baptiste Alloui-Cros, Tyler Marques, Matthew Lyle Olson
cs.AI
초록
우리는 파인튜닝이나 특수한 훈련 없이도 로컬에서 실행 가능한 모든 대규모 언어 모델(LLM)이 풀 프레스 디플로매시 게임을 플레이할 수 있도록 하는 최초의 평가 프레임워크를 제시합니다. 이전 연구에서는 디플로매시 게임 상태의 높은 복잡성과 정보 밀도로 인해 최첨단 LLM이나 파인튜닝이 필요했습니다. 이러한 요소와 매치의 높은 변동성이 결합되어 디플로매시는 연구에 적합하지 않은 게임으로 여겨졌습니다. 본 연구에서는 데이터 기반 반복을 통해 텍스트 기반 게임 상태 표현을 최적화하여 240억 파라미터 모델이 파인튜닝 없이도 안정적으로 매치를 완료할 수 있도록 했습니다. 또한, 가설 검증과 통계 분석을 용이하게 하는 도구를 개발하고, 설득, 공격적인 플레이 스타일, 다양한 모델 간 성능에 대한 사례 연구를 제시합니다. 여러 인기 있는 LLM을 대상으로 다양한 실험을 수행한 결과, 더 큰 모델이 가장 우수한 성능을 보였지만, 더 작은 모델도 충분히 플레이할 수 있음을 확인했습니다. 또한, 게임의 중요한 순간을 깊이 있게 반복 분석할 수 있는 실험 프로토콜인 '중요 상태 분석(Critical State Analysis)'을 도입했습니다. 우리의 평가 프레임워크는 파인튜닝의 필요성을 없애 LLM의 전략적 추론 능력을 평가하는 과정을 민주화하며, 이러한 능력이 널리 사용되는 LLM에서 자연스럽게 나타나는 방식에 대한 통찰을 제공합니다. 본 논문의 보충 자료에 코드를 제공하며, 이를 오픈소스로 공개할 예정입니다.
English
We present the first evaluation harness that enables any out-of-the-box,
local, Large Language Models (LLMs) to play full-press Diplomacy without
fine-tuning or specialized training. Previous work required frontier LLMs, or
fine-tuning, due to the high complexity and information density of Diplomacy's
game state. Combined with the high variance of matches, these factors made
Diplomacy prohibitive for study. In this work, we used data-driven iteration to
optimize a textual game state representation such that a 24B model can reliably
complete matches without any fine tuning. We develop tooling to facilitate
hypothesis testing and statistical analysis, and we present case studies on
persuasion, aggressive playstyles, and performance across a range of models. We
conduct a variety of experiments across many popular LLMs, finding the larger
models perform the best, but the smaller models still play adequately. We also
introduce Critical State Analysis: an experimental protocol for rapidly
iterating and analyzing key moments in a game at depth. Our harness
democratizes the evaluation of strategic reasoning in LLMs by eliminating the
need for fine-tuning, and it provides insights into how these capabilities
emerge naturally from widely used LLMs. Our code is available in the supplement
and will be open sourced.