PokéChamp: Um Agente de Linguagem Minimax de Nível Especialista

Resumo

Apresentamos o Pok\'eChamp, um agente minimax impulsionado por Modelos de Linguagem de Grande Escala (LLMs) para batalhas de Pok\'emon. Construído sobre uma estrutura geral para jogos competitivos de dois jogadores, o Pok\'eChamp aproveita as capacidades generalistas dos LLMs para aprimorar a busca em árvore minimax. Especificamente, os LLMs substituem três módulos principais: (1) amostragem de ações do jogador, (2) modelagem do oponente e (3) estimativa da função de valor, permitindo que o agente utilize efetivamente o histórico de jogos e o conhecimento humano para reduzir o espaço de busca e lidar com a observabilidade parcial. Notavelmente, nossa estrutura não requer treinamento adicional de LLMs. Avaliamos o Pok\'eChamp no popular formato Gen 9 OU. Quando impulsionado pelo GPT-4o, ele alcança uma taxa de vitória de 76% contra o melhor bot baseado em LLM existente e 84% contra o bot baseado em regras mais forte, demonstrando seu desempenho superior. Mesmo com um modelo Llama 3.1 de 8 bilhões de parâmetros de código aberto, o Pok\'eChamp consistentemente supera o melhor bot baseado em LLM anterior, o Pok\'ellmon impulsionado pelo GPT-4o, com uma taxa de vitória de 64%. O Pok\'eChamp atinge um Elo projetado de 1300-1500 na escada online do Pok\'emon Showdown, colocando-o entre os 30%-10% melhores jogadores humanos. Além disso, este trabalho compila o maior conjunto de dados de batalhas de Pok\'emon de jogadores reais, com mais de 3 milhões de jogos, incluindo mais de 500 mil partidas de alto Elo. Com base nesse conjunto de dados, estabelecemos uma série de benchmarks e quebra-cabeças de batalha para avaliar habilidades específicas de combate. Também fornecemos atualizações importantes para o motor de jogo local. Esperamos que este trabalho promova mais pesquisas que utilizem batalhas de Pok\'emon como benchmark para integrar tecnologias de LLM com algoritmos de teoria dos jogos que abordam problemas multiagentes gerais. Vídeos, código e conjunto de dados disponíveis em https://sites.google.com/view/pokechamp-llm.

English

We introduce Pok\'eChamp, a minimax agent powered by Large Language Models (LLMs) for Pok\'emon battles. Built on a general framework for two-player competitive games, Pok\'eChamp leverages the generalist capabilities of LLMs to enhance minimax tree search. Specifically, LLMs replace three key modules: (1) player action sampling, (2) opponent modeling, and (3) value function estimation, enabling the agent to effectively utilize gameplay history and human knowledge to reduce the search space and address partial observability. Notably, our framework requires no additional LLM training. We evaluate Pok\'eChamp in the popular Gen 9 OU format. When powered by GPT-4o, it achieves a win rate of 76% against the best existing LLM-based bot and 84% against the strongest rule-based bot, demonstrating its superior performance. Even with an open-source 8-billion-parameter Llama 3.1 model, Pok\'eChamp consistently outperforms the previous best LLM-based bot, Pok\'ellmon powered by GPT-4o, with a 64% win rate. Pok\'eChamp attains a projected Elo of 1300-1500 on the Pok\'emon Showdown online ladder, placing it among the top 30%-10% of human players. In addition, this work compiles the largest real-player Pok\'emon battle dataset, featuring over 3 million games, including more than 500k high-Elo matches. Based on this dataset, we establish a series of battle benchmarks and puzzles to evaluate specific battling skills. We further provide key updates to the local game engine. We hope this work fosters further research that leverage Pok\'emon battle as benchmark to integrate LLM technologies with game-theoretic algorithms addressing general multiagent problems. Videos, code, and dataset available at https://sites.google.com/view/pokechamp-llm.

PokéChamp: Um Agente de Linguagem Minimax de Nível Especialista

PokéChamp: an Expert-level Minimax Language Agent

Resumo

Support