PokéChamp: Ein Experten-Level-Minimax-Sprachagent
PokéChamp: an Expert-level Minimax Language Agent
March 6, 2025
Autoren: Seth Karten, Andy Luu Nguyen, Chi Jin
cs.AI
Zusammenfassung
Wir stellen Pok\'eChamp vor, einen Minimax-Agenten, der von Large Language Models (LLMs) für Pok\'emon-Kämpfe angetrieben wird. Basierend auf einem allgemeinen Framework für Zwei-Spieler-Wettkampfspiele nutzt Pok\'eChamp die generalistischen Fähigkeiten von LLMs, um die Minimax-Baumsuche zu verbessern. Konkret ersetzen LLMs drei Schlüsselmodule: (1) die Spieleraktionssammlung, (2) die Gegnermodellierung und (3) die Schätzung der Wertfunktion, wodurch der Agent in der Lage ist, Spielverläufe und menschliches Wissen effektiv zu nutzen, um den Suchraum zu verkleinern und partielle Beobachtbarkeit zu bewältigen. Bemerkenswerterweise erfordert unser Framework kein zusätzliches LLM-Training. Wir evaluieren Pok\'eChamp im populären Gen 9 OU-Format. Wenn es von GPT-4o angetrieben wird, erreicht es eine Gewinnrate von 76 % gegen den besten bestehenden LLM-basierten Bot und 84 % gegen den stärksten regelbasierten Bot, was seine überlegene Leistung demonstriert. Selbst mit einem Open-Source-Modell von Llama 3.1 mit 8 Milliarden Parametern übertrifft Pok\'eChamp den bisher besten LLM-basierten Bot, Pok\'ellmon, der von GPT-4o angetrieben wird, mit einer Gewinnrate von 64 %. Pok\'eChamp erreicht eine projizierte Elo von 1300-1500 auf der Pok\'emon Showdown Online-Leiter, was es unter die besten 30%-10% der menschlichen Spieler platziert. Darüber hinaus stellt diese Arbeit den größten Datensatz von echten Pok\'emon-Kämpfen zusammen, der über 3 Millionen Spiele umfasst, darunter mehr als 500.000 hochrangige Matches. Basierend auf diesem Datensatz etablieren wir eine Reihe von Kampfbenchmarks und Rätseln, um spezifische Kampffähigkeiten zu bewerten. Wir liefern außerdem wichtige Updates für die lokale Spiel-Engine. Wir hoffen, dass diese Arbeit weitere Forschungen fördert, die Pok\'emon-Kämpfe als Benchmark nutzen, um LLM-Technologien mit spieltheoretischen Algorithmen zur Lösung allgemeiner Multiagentenprobleme zu integrieren. Videos, Code und Datensatz sind verfügbar unter https://sites.google.com/view/pokechamp-llm.
English
We introduce Pok\'eChamp, a minimax agent powered by Large Language Models
(LLMs) for Pok\'emon battles. Built on a general framework for two-player
competitive games, Pok\'eChamp leverages the generalist capabilities of LLMs to
enhance minimax tree search. Specifically, LLMs replace three key modules: (1)
player action sampling, (2) opponent modeling, and (3) value function
estimation, enabling the agent to effectively utilize gameplay history and
human knowledge to reduce the search space and address partial observability.
Notably, our framework requires no additional LLM training. We evaluate
Pok\'eChamp in the popular Gen 9 OU format. When powered by GPT-4o, it achieves
a win rate of 76% against the best existing LLM-based bot and 84% against the
strongest rule-based bot, demonstrating its superior performance. Even with an
open-source 8-billion-parameter Llama 3.1 model, Pok\'eChamp consistently
outperforms the previous best LLM-based bot, Pok\'ellmon powered by GPT-4o,
with a 64% win rate. Pok\'eChamp attains a projected Elo of 1300-1500 on the
Pok\'emon Showdown online ladder, placing it among the top 30%-10% of human
players. In addition, this work compiles the largest real-player Pok\'emon
battle dataset, featuring over 3 million games, including more than 500k
high-Elo matches. Based on this dataset, we establish a series of battle
benchmarks and puzzles to evaluate specific battling skills. We further provide
key updates to the local game engine. We hope this work fosters further
research that leverage Pok\'emon battle as benchmark to integrate LLM
technologies with game-theoretic algorithms addressing general multiagent
problems. Videos, code, and dataset available at
https://sites.google.com/view/pokechamp-llm.Summary
AI-Generated Summary