ChatPaper.aiChatPaper

PokéChamp: un Agente de Lenguaje Minimax de Nivel Experto

PokéChamp: an Expert-level Minimax Language Agent

March 6, 2025
Autores: Seth Karten, Andy Luu Nguyen, Chi Jin
cs.AI

Resumen

Presentamos Pok\'eChamp, un agente minimax impulsado por Modelos de Lenguaje de Gran Escala (LLMs) para batallas de Pok\'emon. Construido sobre un marco general para juegos competitivos de dos jugadores, Pok\'eChamp aprovecha las capacidades generalistas de los LLMs para mejorar la búsqueda en árbol minimax. Específicamente, los LLMs reemplazan tres módulos clave: (1) muestreo de acciones del jugador, (2) modelado del oponente, y (3) estimación de la función de valor, permitiendo que el agente utilice efectivamente el historial de juego y el conocimiento humano para reducir el espacio de búsqueda y abordar la observabilidad parcial. Cabe destacar que nuestro marco no requiere entrenamiento adicional de los LLMs. Evaluamos Pok\'eChamp en el popular formato Gen 9 OU. Cuando es impulsado por GPT-4o, alcanza una tasa de victorias del 76% contra el mejor bot basado en LLMs existente y del 84% contra el bot basado en reglas más fuerte, demostrando su rendimiento superior. Incluso con un modelo Llama 3.1 de 8 mil millones de parámetros de código abierto, Pok\'eChamp supera consistentemente al mejor bot basado en LLMs anterior, Pok\'ellmon impulsado por GPT-4o, con una tasa de victorias del 64%. Pok\'eChamp alcanza un Elo proyectado de 1300-1500 en la escalera en línea de Pok\'emon Showdown, situándolo entre el 30%-10% superior de los jugadores humanos. Además, este trabajo compila el mayor conjunto de datos de batallas de Pok\'emon de jugadores reales, con más de 3 millones de partidas, incluyendo más de 500k partidas de alto Elo. Basándonos en este conjunto de datos, establecemos una serie de puntos de referencia y rompecabezas de batalla para evaluar habilidades específicas de combate. También proporcionamos actualizaciones clave al motor de juego local. Esperamos que este trabajo fomente más investigaciones que utilicen las batallas de Pok\'emon como punto de referencia para integrar tecnologías de LLMs con algoritmos de teoría de juegos que aborden problemas generales de multiagentes. Videos, código y conjunto de datos disponibles en https://sites.google.com/view/pokechamp-llm.
English
We introduce Pok\'eChamp, a minimax agent powered by Large Language Models (LLMs) for Pok\'emon battles. Built on a general framework for two-player competitive games, Pok\'eChamp leverages the generalist capabilities of LLMs to enhance minimax tree search. Specifically, LLMs replace three key modules: (1) player action sampling, (2) opponent modeling, and (3) value function estimation, enabling the agent to effectively utilize gameplay history and human knowledge to reduce the search space and address partial observability. Notably, our framework requires no additional LLM training. We evaluate Pok\'eChamp in the popular Gen 9 OU format. When powered by GPT-4o, it achieves a win rate of 76% against the best existing LLM-based bot and 84% against the strongest rule-based bot, demonstrating its superior performance. Even with an open-source 8-billion-parameter Llama 3.1 model, Pok\'eChamp consistently outperforms the previous best LLM-based bot, Pok\'ellmon powered by GPT-4o, with a 64% win rate. Pok\'eChamp attains a projected Elo of 1300-1500 on the Pok\'emon Showdown online ladder, placing it among the top 30%-10% of human players. In addition, this work compiles the largest real-player Pok\'emon battle dataset, featuring over 3 million games, including more than 500k high-Elo matches. Based on this dataset, we establish a series of battle benchmarks and puzzles to evaluate specific battling skills. We further provide key updates to the local game engine. We hope this work fosters further research that leverage Pok\'emon battle as benchmark to integrate LLM technologies with game-theoretic algorithms addressing general multiagent problems. Videos, code, and dataset available at https://sites.google.com/view/pokechamp-llm.

Summary

AI-Generated Summary

PDF122March 7, 2025