PokéChamp: un Agente Linguistico Minimax di Livello Esperto
PokéChamp: an Expert-level Minimax Language Agent
March 6, 2025
Autori: Seth Karten, Andy Luu Nguyen, Chi Jin
cs.AI
Abstract
Presentiamo Pok\'eChamp, un agente minimax alimentato da Modelli Linguistici di Grande Scala (LLM) per le battaglie Pok\'emon. Costruito su un framework generale per giochi competitivi a due giocatori, Pok\'eChamp sfrutta le capacità generaliste degli LLM per potenziare la ricerca ad albero minimax. Nello specifico, gli LLM sostituiscono tre moduli chiave: (1) campionamento delle azioni del giocatore, (2) modellazione dell'avversario e (3) stima della funzione di valore, consentendo all'agente di utilizzare efficacemente la cronologia di gioco e la conoscenza umana per ridurre lo spazio di ricerca e affrontare la parziale osservabilità. È importante notare che il nostro framework non richiede ulteriori addestramenti degli LLM. Valutiamo Pok\'eChamp nel popolare formato Gen 9 OU. Quando alimentato da GPT-4o, raggiunge un tasso di vittoria del 76% contro il miglior bot basato su LLM esistente e dell'84% contro il più forte bot basato su regole, dimostrando una performance superiore. Anche con un modello open-source Llama 3.1 da 8 miliardi di parametri, Pok\'eChamp supera costantemente il precedente miglior bot basato su LLM, Pok\'ellmon alimentato da GPT-4o, con un tasso di vittoria del 64%. Pok\'eChamp raggiunge un Elo proiettato di 1300-1500 sulla scala online di Pok\'emon Showdown, collocandosi tra il 30% e il 10% dei migliori giocatori umani. Inoltre, questo lavoro raccoglie il più grande dataset di battaglie Pok\'emon reali, con oltre 3 milioni di partite, inclusi più di 500k match ad alto Elo. Basandoci su questo dataset, stabiliamo una serie di benchmark e puzzle di battaglia per valutare specifiche abilità di combattimento. Forniamo inoltre aggiornamenti chiave al motore di gioco locale. Speriamo che questo lavoro favorisca ulteriori ricerche che utilizzino le battaglie Pok\'emon come benchmark per integrare le tecnologie LLM con algoritmi di teoria dei giochi che affrontano problemi multiagente generali. Video, codice e dataset disponibili su https://sites.google.com/view/pokechamp-llm.
English
We introduce Pok\'eChamp, a minimax agent powered by Large Language Models
(LLMs) for Pok\'emon battles. Built on a general framework for two-player
competitive games, Pok\'eChamp leverages the generalist capabilities of LLMs to
enhance minimax tree search. Specifically, LLMs replace three key modules: (1)
player action sampling, (2) opponent modeling, and (3) value function
estimation, enabling the agent to effectively utilize gameplay history and
human knowledge to reduce the search space and address partial observability.
Notably, our framework requires no additional LLM training. We evaluate
Pok\'eChamp in the popular Gen 9 OU format. When powered by GPT-4o, it achieves
a win rate of 76% against the best existing LLM-based bot and 84% against the
strongest rule-based bot, demonstrating its superior performance. Even with an
open-source 8-billion-parameter Llama 3.1 model, Pok\'eChamp consistently
outperforms the previous best LLM-based bot, Pok\'ellmon powered by GPT-4o,
with a 64% win rate. Pok\'eChamp attains a projected Elo of 1300-1500 on the
Pok\'emon Showdown online ladder, placing it among the top 30%-10% of human
players. In addition, this work compiles the largest real-player Pok\'emon
battle dataset, featuring over 3 million games, including more than 500k
high-Elo matches. Based on this dataset, we establish a series of battle
benchmarks and puzzles to evaluate specific battling skills. We further provide
key updates to the local game engine. We hope this work fosters further
research that leverage Pok\'emon battle as benchmark to integrate LLM
technologies with game-theoretic algorithms addressing general multiagent
problems. Videos, code, and dataset available at
https://sites.google.com/view/pokechamp-llm.Summary
AI-Generated Summary