PokéChamp: Um Agente de Linguagem Minimax de Nível Especialista
PokéChamp: an Expert-level Minimax Language Agent
March 6, 2025
Autores: Seth Karten, Andy Luu Nguyen, Chi Jin
cs.AI
Resumo
Apresentamos o Pok\'eChamp, um agente minimax impulsionado por Modelos de Linguagem de Grande Escala (LLMs) para batalhas de Pok\'emon. Construído sobre uma estrutura geral para jogos competitivos de dois jogadores, o Pok\'eChamp aproveita as capacidades generalistas dos LLMs para aprimorar a busca em árvore minimax. Especificamente, os LLMs substituem três módulos principais: (1) amostragem de ações do jogador, (2) modelagem do oponente e (3) estimativa da função de valor, permitindo que o agente utilize efetivamente o histórico de jogos e o conhecimento humano para reduzir o espaço de busca e lidar com a observabilidade parcial. Notavelmente, nossa estrutura não requer treinamento adicional de LLMs. Avaliamos o Pok\'eChamp no popular formato Gen 9 OU. Quando impulsionado pelo GPT-4o, ele alcança uma taxa de vitória de 76% contra o melhor bot baseado em LLM existente e 84% contra o bot baseado em regras mais forte, demonstrando seu desempenho superior. Mesmo com um modelo Llama 3.1 de 8 bilhões de parâmetros de código aberto, o Pok\'eChamp consistentemente supera o melhor bot baseado em LLM anterior, o Pok\'ellmon impulsionado pelo GPT-4o, com uma taxa de vitória de 64%. O Pok\'eChamp atinge um Elo projetado de 1300-1500 na escada online do Pok\'emon Showdown, colocando-o entre os 30%-10% melhores jogadores humanos. Além disso, este trabalho compila o maior conjunto de dados de batalhas de Pok\'emon de jogadores reais, com mais de 3 milhões de jogos, incluindo mais de 500 mil partidas de alto Elo. Com base nesse conjunto de dados, estabelecemos uma série de benchmarks e quebra-cabeças de batalha para avaliar habilidades específicas de combate. Também fornecemos atualizações importantes para o motor de jogo local. Esperamos que este trabalho promova mais pesquisas que utilizem batalhas de Pok\'emon como benchmark para integrar tecnologias de LLM com algoritmos de teoria dos jogos que abordam problemas multiagentes gerais. Vídeos, código e conjunto de dados disponíveis em https://sites.google.com/view/pokechamp-llm.
English
We introduce Pok\'eChamp, a minimax agent powered by Large Language Models
(LLMs) for Pok\'emon battles. Built on a general framework for two-player
competitive games, Pok\'eChamp leverages the generalist capabilities of LLMs to
enhance minimax tree search. Specifically, LLMs replace three key modules: (1)
player action sampling, (2) opponent modeling, and (3) value function
estimation, enabling the agent to effectively utilize gameplay history and
human knowledge to reduce the search space and address partial observability.
Notably, our framework requires no additional LLM training. We evaluate
Pok\'eChamp in the popular Gen 9 OU format. When powered by GPT-4o, it achieves
a win rate of 76% against the best existing LLM-based bot and 84% against the
strongest rule-based bot, demonstrating its superior performance. Even with an
open-source 8-billion-parameter Llama 3.1 model, Pok\'eChamp consistently
outperforms the previous best LLM-based bot, Pok\'ellmon powered by GPT-4o,
with a 64% win rate. Pok\'eChamp attains a projected Elo of 1300-1500 on the
Pok\'emon Showdown online ladder, placing it among the top 30%-10% of human
players. In addition, this work compiles the largest real-player Pok\'emon
battle dataset, featuring over 3 million games, including more than 500k
high-Elo matches. Based on this dataset, we establish a series of battle
benchmarks and puzzles to evaluate specific battling skills. We further provide
key updates to the local game engine. We hope this work fosters further
research that leverage Pok\'emon battle as benchmark to integrate LLM
technologies with game-theoretic algorithms addressing general multiagent
problems. Videos, code, and dataset available at
https://sites.google.com/view/pokechamp-llm.Summary
AI-Generated Summary