PokéChamp: un Agente de Lenguaje Minimax de Nivel Experto
PokéChamp: an Expert-level Minimax Language Agent
March 6, 2025
Autores: Seth Karten, Andy Luu Nguyen, Chi Jin
cs.AI
Resumen
Presentamos Pok\'eChamp, un agente minimax impulsado por Modelos de Lenguaje de Gran Escala (LLMs) para batallas de Pok\'emon. Construido sobre un marco general para juegos competitivos de dos jugadores, Pok\'eChamp aprovecha las capacidades generalistas de los LLMs para mejorar la búsqueda en árbol minimax. Específicamente, los LLMs reemplazan tres módulos clave: (1) muestreo de acciones del jugador, (2) modelado del oponente, y (3) estimación de la función de valor, permitiendo que el agente utilice efectivamente el historial de juego y el conocimiento humano para reducir el espacio de búsqueda y abordar la observabilidad parcial. Cabe destacar que nuestro marco no requiere entrenamiento adicional de los LLMs. Evaluamos Pok\'eChamp en el popular formato Gen 9 OU. Cuando es impulsado por GPT-4o, alcanza una tasa de victorias del 76% contra el mejor bot basado en LLMs existente y del 84% contra el bot basado en reglas más fuerte, demostrando su rendimiento superior. Incluso con un modelo Llama 3.1 de 8 mil millones de parámetros de código abierto, Pok\'eChamp supera consistentemente al mejor bot basado en LLMs anterior, Pok\'ellmon impulsado por GPT-4o, con una tasa de victorias del 64%. Pok\'eChamp alcanza un Elo proyectado de 1300-1500 en la escalera en línea de Pok\'emon Showdown, situándolo entre el 30%-10% superior de los jugadores humanos. Además, este trabajo compila el mayor conjunto de datos de batallas de Pok\'emon de jugadores reales, con más de 3 millones de partidas, incluyendo más de 500k partidas de alto Elo. Basándonos en este conjunto de datos, establecemos una serie de puntos de referencia y rompecabezas de batalla para evaluar habilidades específicas de combate. También proporcionamos actualizaciones clave al motor de juego local. Esperamos que este trabajo fomente más investigaciones que utilicen las batallas de Pok\'emon como punto de referencia para integrar tecnologías de LLMs con algoritmos de teoría de juegos que aborden problemas generales de multiagentes. Videos, código y conjunto de datos disponibles en https://sites.google.com/view/pokechamp-llm.
English
We introduce Pok\'eChamp, a minimax agent powered by Large Language Models
(LLMs) for Pok\'emon battles. Built on a general framework for two-player
competitive games, Pok\'eChamp leverages the generalist capabilities of LLMs to
enhance minimax tree search. Specifically, LLMs replace three key modules: (1)
player action sampling, (2) opponent modeling, and (3) value function
estimation, enabling the agent to effectively utilize gameplay history and
human knowledge to reduce the search space and address partial observability.
Notably, our framework requires no additional LLM training. We evaluate
Pok\'eChamp in the popular Gen 9 OU format. When powered by GPT-4o, it achieves
a win rate of 76% against the best existing LLM-based bot and 84% against the
strongest rule-based bot, demonstrating its superior performance. Even with an
open-source 8-billion-parameter Llama 3.1 model, Pok\'eChamp consistently
outperforms the previous best LLM-based bot, Pok\'ellmon powered by GPT-4o,
with a 64% win rate. Pok\'eChamp attains a projected Elo of 1300-1500 on the
Pok\'emon Showdown online ladder, placing it among the top 30%-10% of human
players. In addition, this work compiles the largest real-player Pok\'emon
battle dataset, featuring over 3 million games, including more than 500k
high-Elo matches. Based on this dataset, we establish a series of battle
benchmarks and puzzles to evaluate specific battling skills. We further provide
key updates to the local game engine. We hope this work fosters further
research that leverage Pok\'emon battle as benchmark to integrate LLM
technologies with game-theoretic algorithms addressing general multiagent
problems. Videos, code, and dataset available at
https://sites.google.com/view/pokechamp-llm.Summary
AI-Generated Summary