ChatPaper.aiChatPaper

PokéChamp : un agent linguistique Minimax de niveau expert

PokéChamp: an Expert-level Minimax Language Agent

March 6, 2025
Auteurs: Seth Karten, Andy Luu Nguyen, Chi Jin
cs.AI

Résumé

Nous présentons Pok\'eChamp, un agent minimax alimenté par des modèles de langage de grande taille (LLM) pour les combats de Pok\'emon. Construit sur un cadre général pour les jeux compétitifs à deux joueurs, Pok\'eChamp exploite les capacités généralistes des LLM pour améliorer la recherche arborescente minimax. Plus précisément, les LLM remplacent trois modules clés : (1) l'échantillonnage des actions du joueur, (2) la modélisation de l'adversaire, et (3) l'estimation de la fonction de valeur, permettant à l'agent d'utiliser efficacement l'historique des parties et les connaissances humaines pour réduire l'espace de recherche et gérer l'observabilité partielle. Notamment, notre cadre ne nécessite aucun entraînement supplémentaire des LLM. Nous évaluons Pok\'eChamp dans le format populaire Gen 9 OU. Lorsqu'il est alimenté par GPT-4o, il atteint un taux de victoire de 76 % contre le meilleur bot basé sur LLM existant et de 84 % contre le bot basé sur des règles le plus fort, démontrant ainsi sa performance supérieure. Même avec un modèle open-source Llama 3.1 à 8 milliards de paramètres, Pok\'eChamp surpasse systématiquement le précédent meilleur bot basé sur LLM, Pok\'ellmon alimenté par GPT-4o, avec un taux de victoire de 64 %. Pok\'eChamp atteint un Elo projeté de 1300-1500 sur l'échelle en ligne Pok\'emon Showdown, le plaçant parmi les 30 % à 10 % des meilleurs joueurs humains. En outre, ce travail compile le plus grand ensemble de données de combats de Pok\'emon réels, comprenant plus de 3 millions de parties, dont plus de 500 000 matchs à haut Elo. Sur la base de cet ensemble de données, nous établissons une série de benchmarks et de puzzles pour évaluer des compétences spécifiques en combat. Nous fournissons également des mises à jour clés du moteur de jeu local. Nous espérons que ce travail stimulera des recherches supplémentaires qui exploitent les combats de Pok\'emon comme benchmark pour intégrer les technologies LLM avec des algorithmes de théorie des jeux abordant des problèmes multiagents généraux. Vidéos, code et ensemble de données disponibles à l'adresse https://sites.google.com/view/pokechamp-llm.
English
We introduce Pok\'eChamp, a minimax agent powered by Large Language Models (LLMs) for Pok\'emon battles. Built on a general framework for two-player competitive games, Pok\'eChamp leverages the generalist capabilities of LLMs to enhance minimax tree search. Specifically, LLMs replace three key modules: (1) player action sampling, (2) opponent modeling, and (3) value function estimation, enabling the agent to effectively utilize gameplay history and human knowledge to reduce the search space and address partial observability. Notably, our framework requires no additional LLM training. We evaluate Pok\'eChamp in the popular Gen 9 OU format. When powered by GPT-4o, it achieves a win rate of 76% against the best existing LLM-based bot and 84% against the strongest rule-based bot, demonstrating its superior performance. Even with an open-source 8-billion-parameter Llama 3.1 model, Pok\'eChamp consistently outperforms the previous best LLM-based bot, Pok\'ellmon powered by GPT-4o, with a 64% win rate. Pok\'eChamp attains a projected Elo of 1300-1500 on the Pok\'emon Showdown online ladder, placing it among the top 30%-10% of human players. In addition, this work compiles the largest real-player Pok\'emon battle dataset, featuring over 3 million games, including more than 500k high-Elo matches. Based on this dataset, we establish a series of battle benchmarks and puzzles to evaluate specific battling skills. We further provide key updates to the local game engine. We hope this work fosters further research that leverage Pok\'emon battle as benchmark to integrate LLM technologies with game-theoretic algorithms addressing general multiagent problems. Videos, code, and dataset available at https://sites.google.com/view/pokechamp-llm.

Summary

AI-Generated Summary

PDF122March 7, 2025