PokéChamp: een Expert-level Minimax Taalagent

Samenvatting

We introduceren Pok\'eChamp, een minimax-agent aangedreven door Large Language Models (LLM's) voor Pok\'emon-gevechten. Gebouwd op een algemeen framework voor tweespelerscompetitieve spellen, benut Pok\'eChamp de generalistische capaciteiten van LLM's om minimax-boomzoeken te verbeteren. Specifiek vervangen LLM's drie cruciale modules: (1) actiebemonstering van de speler, (2) tegenstandermodellering, en (3) waardefunctieschatting, waardoor de agent effectief gameplaygeschiedenis en menselijke kennis kan gebruiken om de zoekruimte te verkleinen en gedeeltelijke observeerbaarheid aan te pakken. Opmerkelijk is dat ons framework geen aanvullende LLM-training vereist. We evalueren Pok\'eChamp in het populaire Gen 9 OU-formaat. Wanneer aangedreven door GPT-4o, behaalt het een winstpercentage van 76% tegen de beste bestaande LLM-gebaseerde bot en 84% tegen de sterkste regelgebaseerde bot, wat zijn superieure prestaties aantoont. Zelfs met een open-source 8-miljard-parameter Llama 3.1-model presteert Pok\'eChamp consistent beter dan de vorige beste LLM-gebaseerde bot, Pok\'ellmon aangedreven door GPT-4o, met een winstpercentage van 64%. Pok\'eChamp bereikt een geprojecteerde Elo van 1300-1500 op de Pok\'emon Showdown online ladder, wat het plaatst onder de top 30%-10% van menselijke spelers. Daarnaast compileert dit werk de grootste dataset van echte Pok\'emon-gevechten, met meer dan 3 miljoen spellen, waaronder meer dan 500k high-Elo wedstrijden. Op basis van deze dataset stellen we een reeks gevechtsbenchmarks en puzzels op om specifieke gevechtsvaardigheden te evalueren. We bieden verder belangrijke updates aan de lokale game-engine. We hopen dat dit werk verder onderzoek stimuleert dat Pok\'emon-gevechten als benchmark gebruikt om LLM-technologieën te integreren met speltheoretische algoritmen die algemene multiagentproblemen aanpakken. Video's, code en dataset zijn beschikbaar op https://sites.google.com/view/pokechamp-llm.

English

We introduce Pok\'eChamp, a minimax agent powered by Large Language Models (LLMs) for Pok\'emon battles. Built on a general framework for two-player competitive games, Pok\'eChamp leverages the generalist capabilities of LLMs to enhance minimax tree search. Specifically, LLMs replace three key modules: (1) player action sampling, (2) opponent modeling, and (3) value function estimation, enabling the agent to effectively utilize gameplay history and human knowledge to reduce the search space and address partial observability. Notably, our framework requires no additional LLM training. We evaluate Pok\'eChamp in the popular Gen 9 OU format. When powered by GPT-4o, it achieves a win rate of 76% against the best existing LLM-based bot and 84% against the strongest rule-based bot, demonstrating its superior performance. Even with an open-source 8-billion-parameter Llama 3.1 model, Pok\'eChamp consistently outperforms the previous best LLM-based bot, Pok\'ellmon powered by GPT-4o, with a 64% win rate. Pok\'eChamp attains a projected Elo of 1300-1500 on the Pok\'emon Showdown online ladder, placing it among the top 30%-10% of human players. In addition, this work compiles the largest real-player Pok\'emon battle dataset, featuring over 3 million games, including more than 500k high-Elo matches. Based on this dataset, we establish a series of battle benchmarks and puzzles to evaluate specific battling skills. We further provide key updates to the local game engine. We hope this work fosters further research that leverage Pok\'emon battle as benchmark to integrate LLM technologies with game-theoretic algorithms addressing general multiagent problems. Videos, code, and dataset available at https://sites.google.com/view/pokechamp-llm.

PokéChamp: een Expert-level Minimax Taalagent

PokéChamp: an Expert-level Minimax Language Agent

Samenvatting

Support