포케챔프: 전문가 수준의 미니맥스 언어 에이전트
PokéChamp: an Expert-level Minimax Language Agent
March 6, 2025
저자: Seth Karten, Andy Luu Nguyen, Chi Jin
cs.AI
초록
우리는 포켓몬 배틀을 위한 대형 언어 모델(LLM) 기반의 미니맥스 에이전트인 Pok\'eChamp를 소개합니다. 두 명의 플레이어가 경쟁하는 게임을 위한 일반적인 프레임워크 위에 구축된 Pok\'eChamp는 LLM의 일반화 능력을 활용하여 미니맥스 트리 탐색을 강화합니다. 구체적으로, LLM은 세 가지 핵심 모듈을 대체합니다: (1) 플레이어 행동 샘플링, (2) 상대 모델링, (3) 가치 함수 추정. 이를 통해 에이전트는 게임플레이 기록과 인간의 지식을 효과적으로 활용하여 탐색 공간을 줄이고 부분 관측 가능성을 해결할 수 있습니다. 특히, 우리의 프레임워크는 추가적인 LLM 학습이 필요하지 않습니다. 우리는 Pok\'eChamp를 인기 있는 Gen 9 OU 포맷에서 평가했습니다. GPT-4o를 기반으로 할 때, 이는 기존 최고의 LLM 기반 봇에 대해 76%의 승률을, 가장 강력한 규칙 기반 봇에 대해 84%의 승률을 달성하며 우수한 성능을 입증했습니다. 오픈소스 80억 파라미터 Llama 3.1 모델을 사용할 때도 Pok\'eChamp는 GPT-4o 기반의 이전 최고 LLM 기반 봇인 Pok\'ellmon을 64%의 승률로 꾸준히 능가했습니다. Pok\'eChamp는 Pok\'emon Showdown 온라인 래더에서 1300-1500의 예상 Elo를 달성하며, 이는 인간 플레이어 상위 30%-10%에 해당합니다. 또한, 이 연구는 300만 건 이상의 게임을 포함한 가장 큰 실시간 플레이어 포켓몬 배틀 데이터셋을 구축했으며, 이 중 50만 건 이상이 고-Elo 매치입니다. 이 데이터셋을 기반으로, 우리는 특정 배틀 기술을 평가하기 위한 일련의 배틀 벤치마크와 퍼즐을 설정했습니다. 또한, 로컬 게임 엔진에 대한 주요 업데이트를 제공합니다. 우리는 이 연구가 포켓몬 배틀을 벤치마크로 활용하여 LLM 기술과 일반적인 다중 에이전트 문제를 해결하는 게임 이론 알고리즘을 통합하는 추가 연구를 촉진하기를 바랍니다. 비디오, 코드, 데이터셋은 https://sites.google.com/view/pokechamp-llm에서 확인할 수 있습니다.
English
We introduce Pok\'eChamp, a minimax agent powered by Large Language Models
(LLMs) for Pok\'emon battles. Built on a general framework for two-player
competitive games, Pok\'eChamp leverages the generalist capabilities of LLMs to
enhance minimax tree search. Specifically, LLMs replace three key modules: (1)
player action sampling, (2) opponent modeling, and (3) value function
estimation, enabling the agent to effectively utilize gameplay history and
human knowledge to reduce the search space and address partial observability.
Notably, our framework requires no additional LLM training. We evaluate
Pok\'eChamp in the popular Gen 9 OU format. When powered by GPT-4o, it achieves
a win rate of 76% against the best existing LLM-based bot and 84% against the
strongest rule-based bot, demonstrating its superior performance. Even with an
open-source 8-billion-parameter Llama 3.1 model, Pok\'eChamp consistently
outperforms the previous best LLM-based bot, Pok\'ellmon powered by GPT-4o,
with a 64% win rate. Pok\'eChamp attains a projected Elo of 1300-1500 on the
Pok\'emon Showdown online ladder, placing it among the top 30%-10% of human
players. In addition, this work compiles the largest real-player Pok\'emon
battle dataset, featuring over 3 million games, including more than 500k
high-Elo matches. Based on this dataset, we establish a series of battle
benchmarks and puzzles to evaluate specific battling skills. We further provide
key updates to the local game engine. We hope this work fosters further
research that leverage Pok\'emon battle as benchmark to integrate LLM
technologies with game-theoretic algorithms addressing general multiagent
problems. Videos, code, and dataset available at
https://sites.google.com/view/pokechamp-llm.