PokéChamp: een Expert-level Minimax Taalagent
PokéChamp: an Expert-level Minimax Language Agent
March 6, 2025
Auteurs: Seth Karten, Andy Luu Nguyen, Chi Jin
cs.AI
Samenvatting
We introduceren Pok\'eChamp, een minimax-agent aangedreven door Large Language Models (LLM's) voor Pok\'emon-gevechten. Gebouwd op een algemeen framework voor tweespelerscompetitieve spellen, benut Pok\'eChamp de generalistische capaciteiten van LLM's om minimax-boomzoeken te verbeteren. Specifiek vervangen LLM's drie cruciale modules: (1) actiebemonstering van de speler, (2) tegenstandermodellering, en (3) waardefunctieschatting, waardoor de agent effectief gameplaygeschiedenis en menselijke kennis kan gebruiken om de zoekruimte te verkleinen en gedeeltelijke observeerbaarheid aan te pakken. Opmerkelijk is dat ons framework geen aanvullende LLM-training vereist. We evalueren Pok\'eChamp in het populaire Gen 9 OU-formaat. Wanneer aangedreven door GPT-4o, behaalt het een winstpercentage van 76% tegen de beste bestaande LLM-gebaseerde bot en 84% tegen de sterkste regelgebaseerde bot, wat zijn superieure prestaties aantoont. Zelfs met een open-source 8-miljard-parameter Llama 3.1-model presteert Pok\'eChamp consistent beter dan de vorige beste LLM-gebaseerde bot, Pok\'ellmon aangedreven door GPT-4o, met een winstpercentage van 64%. Pok\'eChamp bereikt een geprojecteerde Elo van 1300-1500 op de Pok\'emon Showdown online ladder, wat het plaatst onder de top 30%-10% van menselijke spelers. Daarnaast compileert dit werk de grootste dataset van echte Pok\'emon-gevechten, met meer dan 3 miljoen spellen, waaronder meer dan 500k high-Elo wedstrijden. Op basis van deze dataset stellen we een reeks gevechtsbenchmarks en puzzels op om specifieke gevechtsvaardigheden te evalueren. We bieden verder belangrijke updates aan de lokale game-engine. We hopen dat dit werk verder onderzoek stimuleert dat Pok\'emon-gevechten als benchmark gebruikt om LLM-technologieën te integreren met speltheoretische algoritmen die algemene multiagentproblemen aanpakken. Video's, code en dataset zijn beschikbaar op https://sites.google.com/view/pokechamp-llm.
English
We introduce Pok\'eChamp, a minimax agent powered by Large Language Models
(LLMs) for Pok\'emon battles. Built on a general framework for two-player
competitive games, Pok\'eChamp leverages the generalist capabilities of LLMs to
enhance minimax tree search. Specifically, LLMs replace three key modules: (1)
player action sampling, (2) opponent modeling, and (3) value function
estimation, enabling the agent to effectively utilize gameplay history and
human knowledge to reduce the search space and address partial observability.
Notably, our framework requires no additional LLM training. We evaluate
Pok\'eChamp in the popular Gen 9 OU format. When powered by GPT-4o, it achieves
a win rate of 76% against the best existing LLM-based bot and 84% against the
strongest rule-based bot, demonstrating its superior performance. Even with an
open-source 8-billion-parameter Llama 3.1 model, Pok\'eChamp consistently
outperforms the previous best LLM-based bot, Pok\'ellmon powered by GPT-4o,
with a 64% win rate. Pok\'eChamp attains a projected Elo of 1300-1500 on the
Pok\'emon Showdown online ladder, placing it among the top 30%-10% of human
players. In addition, this work compiles the largest real-player Pok\'emon
battle dataset, featuring over 3 million games, including more than 500k
high-Elo matches. Based on this dataset, we establish a series of battle
benchmarks and puzzles to evaluate specific battling skills. We further provide
key updates to the local game engine. We hope this work fosters further
research that leverage Pok\'emon battle as benchmark to integrate LLM
technologies with game-theoretic algorithms addressing general multiagent
problems. Videos, code, and dataset available at
https://sites.google.com/view/pokechamp-llm.Summary
AI-Generated Summary