Die PokeAgent-Herausforderung: Wettbewerbsorientiertes und kontextlanges Lernen im großen Maßstab
The PokeAgent Challenge: Competitive and Long-Context Learning at Scale
March 16, 2026
Autoren: Seth Karten, Jake Grigsby, Tersoo Upaa, Junik Bae, Seonghun Hong, Hyunyoung Jeong, Jaeyoon Jung, Kun Kerdthaisong, Gyungbo Kim, Hyeokgi Kim, Yujin Kim, Eunju Kwon, Dongyu Liu, Patrick Mariglia, Sangyeon Park, Benedikt Schink, Xianwei Shi, Anthony Sistilli, Joseph Twin, Arian Urdu, Matin Urdu, Qiao Wang, Ling Wu, Wenli Zhang, Kunsheng Zhou, Stephanie Milani, Kiran Vodrahalli, Amy Zhang, Fei Fang, Yuke Zhu, Chi Jin
cs.AI
Zusammenfassung
Wir stellen die PokeAgent Challenge vor, einen umfangreichen Benchmark für die Entscheidungsforschung, der auf Pokémons Multi-Agenten-Kampfsystem und umfassender Rollenspielumgebung (RPG) aufbaut. Partielle Beobachtbarkeit, spieltheoretisches Denken und langfristige Planung bleiben ungelöste Probleme für die Spitzen-KI, doch nur wenige Benchmarks testen alle drei Aspekte gleichzeitig unter realistischen Bedingungen. PokeAgent adressiert diese Einschränkungen im großen Maßstab durch zwei komplementäre Wettbewerbsbereiche: unseren Kampfbereich, der strategisches Denken und Generalisierung unter partieller Beobachtbarkeit in kompetitiven Pokémon-Kämpfen erfordert, und unseren Speedrunning-Bereich, der langfristige Planung und sequenzielle Entscheidungsfindung im Pokémon-RPG voraussetzt. Unser Kampfbereich liefert einen Datensatz mit über 20 Millionen Kampfverläufen sowie eine Reihe von heuristischen, reinforcement-basierten und LLM-gestützten Baseline-Modellen, die wettbewerbsfähiges Spiel auf hohem Niveau ermöglichen. Unser Speedrunning-Bereich bietet den ersten standardisierten Evaluierungsrahmen für RPG-Speedrunning, inklusive eines Open-Source-Multi-Agenten-Orchestrierungssystems für modulare, reproduzierbare Vergleiche von LLM-Ansätzen. Unser NeurIPS-2025-Wettbewerb validiert sowohl die Qualität unserer Ressourcen als auch das Forschungsinteresse an Pokémon, mit über 100 teilnehmenden Teams in beiden Bereichen und detaillierten Beschreibungen der Siegerlösungen in unserem Beitrag. Die Einreichungen der Teilnehmer und unsere Baselines zeigen erhebliche Lücken zwischen generalistischen (LLM), spezialisierten (RL) und menschlichen Spitzenleistungen auf. Analysen mit der BenchPress-Evaluierungsmatrix zeigen, dass Pokémon-Kämpfe nahezu orthogonal zu standardmäßigen LLM-Benchmarks sind, Fähigkeiten messen, die von bestehenden Testreihen nicht erfasst werden, und Pokémon als ungelösten Benchmark positionieren, der die RL- und LLM-Forschung vorantreiben kann. Wir etablieren einen lebendigen Benchmark mit einer Live-Bestenliste für den Kampfbereich und einer eigenständigen Evaluierung für den Speedrunning-Bereich unter https://pokeagentchallenge.com.
English
We present the PokeAgent Challenge, a large-scale benchmark for decision-making research built on Pokemon's multi-agent battle system and expansive role-playing game (RPG) environment. Partial observability, game-theoretic reasoning, and long-horizon planning remain open problems for frontier AI, yet few benchmarks stress all three simultaneously under realistic conditions. PokeAgent targets these limitations at scale through two complementary tracks: our Battling Track, which calls for strategic reasoning and generalization under partial observability in competitive Pokemon battles, and our Speedrunning Track, which requires long-horizon planning and sequential decision-making in the Pokemon RPG. Our Battling Track supplies a dataset of 20M+ battle trajectories alongside a suite of heuristic, RL, and LLM-based baselines capable of high-level competitive play. Our Speedrunning Track provides the first standardized evaluation framework for RPG speedrunning, including an open-source multi-agent orchestration system for modular, reproducible comparisons of harness-based LLM approaches. Our NeurIPS 2025 competition validates both the quality of our resources and the research community's interest in Pokemon, with over 100 teams competing across both tracks and winning solutions detailed in our paper. Participant submissions and our baselines reveal considerable gaps between generalist (LLM), specialist (RL), and elite human performance. Analysis against the BenchPress evaluation matrix shows that Pokemon battling is nearly orthogonal to standard LLM benchmarks, measuring capabilities not captured by existing suites and positioning Pokemon as an unsolved benchmark that can drive RL and LLM research forward. We transition to a living benchmark with a live leaderboard for Battling and self-contained evaluation for Speedrunning at https://pokeagentchallenge.com.