PokéChamp: Ein Experten-Level-Minimax-Sprachagent

Zusammenfassung

Wir stellen Pok\'eChamp vor, einen Minimax-Agenten, der von Large Language Models (LLMs) für Pok\'emon-Kämpfe angetrieben wird. Basierend auf einem allgemeinen Framework für Zwei-Spieler-Wettkampfspiele nutzt Pok\'eChamp die generalistischen Fähigkeiten von LLMs, um die Minimax-Baumsuche zu verbessern. Konkret ersetzen LLMs drei Schlüsselmodule: (1) die Spieleraktionssammlung, (2) die Gegnermodellierung und (3) die Schätzung der Wertfunktion, wodurch der Agent in der Lage ist, Spielverläufe und menschliches Wissen effektiv zu nutzen, um den Suchraum zu verkleinern und partielle Beobachtbarkeit zu bewältigen. Bemerkenswerterweise erfordert unser Framework kein zusätzliches LLM-Training. Wir evaluieren Pok\'eChamp im populären Gen 9 OU-Format. Wenn es von GPT-4o angetrieben wird, erreicht es eine Gewinnrate von 76 % gegen den besten bestehenden LLM-basierten Bot und 84 % gegen den stärksten regelbasierten Bot, was seine überlegene Leistung demonstriert. Selbst mit einem Open-Source-Modell von Llama 3.1 mit 8 Milliarden Parametern übertrifft Pok\'eChamp den bisher besten LLM-basierten Bot, Pok\'ellmon, der von GPT-4o angetrieben wird, mit einer Gewinnrate von 64 %. Pok\'eChamp erreicht eine projizierte Elo von 1300-1500 auf der Pok\'emon Showdown Online-Leiter, was es unter die besten 30%-10% der menschlichen Spieler platziert. Darüber hinaus stellt diese Arbeit den größten Datensatz von echten Pok\'emon-Kämpfen zusammen, der über 3 Millionen Spiele umfasst, darunter mehr als 500.000 hochrangige Matches. Basierend auf diesem Datensatz etablieren wir eine Reihe von Kampfbenchmarks und Rätseln, um spezifische Kampffähigkeiten zu bewerten. Wir liefern außerdem wichtige Updates für die lokale Spiel-Engine. Wir hoffen, dass diese Arbeit weitere Forschungen fördert, die Pok\'emon-Kämpfe als Benchmark nutzen, um LLM-Technologien mit spieltheoretischen Algorithmen zur Lösung allgemeiner Multiagentenprobleme zu integrieren. Videos, Code und Datensatz sind verfügbar unter https://sites.google.com/view/pokechamp-llm.

English

We introduce Pok\'eChamp, a minimax agent powered by Large Language Models (LLMs) for Pok\'emon battles. Built on a general framework for two-player competitive games, Pok\'eChamp leverages the generalist capabilities of LLMs to enhance minimax tree search. Specifically, LLMs replace three key modules: (1) player action sampling, (2) opponent modeling, and (3) value function estimation, enabling the agent to effectively utilize gameplay history and human knowledge to reduce the search space and address partial observability. Notably, our framework requires no additional LLM training. We evaluate Pok\'eChamp in the popular Gen 9 OU format. When powered by GPT-4o, it achieves a win rate of 76% against the best existing LLM-based bot and 84% against the strongest rule-based bot, demonstrating its superior performance. Even with an open-source 8-billion-parameter Llama 3.1 model, Pok\'eChamp consistently outperforms the previous best LLM-based bot, Pok\'ellmon powered by GPT-4o, with a 64% win rate. Pok\'eChamp attains a projected Elo of 1300-1500 on the Pok\'emon Showdown online ladder, placing it among the top 30%-10% of human players. In addition, this work compiles the largest real-player Pok\'emon battle dataset, featuring over 3 million games, including more than 500k high-Elo matches. Based on this dataset, we establish a series of battle benchmarks and puzzles to evaluate specific battling skills. We further provide key updates to the local game engine. We hope this work fosters further research that leverage Pok\'emon battle as benchmark to integrate LLM technologies with game-theoretic algorithms addressing general multiagent problems. Videos, code, and dataset available at https://sites.google.com/view/pokechamp-llm.

PokéChamp: Ein Experten-Level-Minimax-Sprachagent

PokéChamp: an Expert-level Minimax Language Agent

Zusammenfassung

Support