PokéChamp: un Agente Linguistico Minimax di Livello Esperto

Abstract

Presentiamo Pok\'eChamp, un agente minimax alimentato da Modelli Linguistici di Grande Scala (LLM) per le battaglie Pok\'emon. Costruito su un framework generale per giochi competitivi a due giocatori, Pok\'eChamp sfrutta le capacità generaliste degli LLM per potenziare la ricerca ad albero minimax. Nello specifico, gli LLM sostituiscono tre moduli chiave: (1) campionamento delle azioni del giocatore, (2) modellazione dell'avversario e (3) stima della funzione di valore, consentendo all'agente di utilizzare efficacemente la cronologia di gioco e la conoscenza umana per ridurre lo spazio di ricerca e affrontare la parziale osservabilità. È importante notare che il nostro framework non richiede ulteriori addestramenti degli LLM. Valutiamo Pok\'eChamp nel popolare formato Gen 9 OU. Quando alimentato da GPT-4o, raggiunge un tasso di vittoria del 76% contro il miglior bot basato su LLM esistente e dell'84% contro il più forte bot basato su regole, dimostrando una performance superiore. Anche con un modello open-source Llama 3.1 da 8 miliardi di parametri, Pok\'eChamp supera costantemente il precedente miglior bot basato su LLM, Pok\'ellmon alimentato da GPT-4o, con un tasso di vittoria del 64%. Pok\'eChamp raggiunge un Elo proiettato di 1300-1500 sulla scala online di Pok\'emon Showdown, collocandosi tra il 30% e il 10% dei migliori giocatori umani. Inoltre, questo lavoro raccoglie il più grande dataset di battaglie Pok\'emon reali, con oltre 3 milioni di partite, inclusi più di 500k match ad alto Elo. Basandoci su questo dataset, stabiliamo una serie di benchmark e puzzle di battaglia per valutare specifiche abilità di combattimento. Forniamo inoltre aggiornamenti chiave al motore di gioco locale. Speriamo che questo lavoro favorisca ulteriori ricerche che utilizzino le battaglie Pok\'emon come benchmark per integrare le tecnologie LLM con algoritmi di teoria dei giochi che affrontano problemi multiagente generali. Video, codice e dataset disponibili su https://sites.google.com/view/pokechamp-llm.

English

We introduce Pok\'eChamp, a minimax agent powered by Large Language Models (LLMs) for Pok\'emon battles. Built on a general framework for two-player competitive games, Pok\'eChamp leverages the generalist capabilities of LLMs to enhance minimax tree search. Specifically, LLMs replace three key modules: (1) player action sampling, (2) opponent modeling, and (3) value function estimation, enabling the agent to effectively utilize gameplay history and human knowledge to reduce the search space and address partial observability. Notably, our framework requires no additional LLM training. We evaluate Pok\'eChamp in the popular Gen 9 OU format. When powered by GPT-4o, it achieves a win rate of 76% against the best existing LLM-based bot and 84% against the strongest rule-based bot, demonstrating its superior performance. Even with an open-source 8-billion-parameter Llama 3.1 model, Pok\'eChamp consistently outperforms the previous best LLM-based bot, Pok\'ellmon powered by GPT-4o, with a 64% win rate. Pok\'eChamp attains a projected Elo of 1300-1500 on the Pok\'emon Showdown online ladder, placing it among the top 30%-10% of human players. In addition, this work compiles the largest real-player Pok\'emon battle dataset, featuring over 3 million games, including more than 500k high-Elo matches. Based on this dataset, we establish a series of battle benchmarks and puzzles to evaluate specific battling skills. We further provide key updates to the local game engine. We hope this work fosters further research that leverage Pok\'emon battle as benchmark to integrate LLM technologies with game-theoretic algorithms addressing general multiagent problems. Videos, code, and dataset available at https://sites.google.com/view/pokechamp-llm.

PokéChamp: un Agente Linguistico Minimax di Livello Esperto

PokéChamp: an Expert-level Minimax Language Agent

Abstract

Support