ChatPaper.aiChatPaper

De PokeAgent Challenge: Competitief en Langetermijn Leren op Schaal

The PokeAgent Challenge: Competitive and Long-Context Learning at Scale

March 16, 2026
Auteurs: Seth Karten, Jake Grigsby, Tersoo Upaa, Junik Bae, Seonghun Hong, Hyunyoung Jeong, Jaeyoon Jung, Kun Kerdthaisong, Gyungbo Kim, Hyeokgi Kim, Yujin Kim, Eunju Kwon, Dongyu Liu, Patrick Mariglia, Sangyeon Park, Benedikt Schink, Xianwei Shi, Anthony Sistilli, Joseph Twin, Arian Urdu, Matin Urdu, Qiao Wang, Ling Wu, Wenli Zhang, Kunsheng Zhou, Stephanie Milani, Kiran Vodrahalli, Amy Zhang, Fei Fang, Yuke Zhu, Chi Jin
cs.AI

Samenvatting

Wij presenteren de PokeAgent Challenge, een grootschalige benchmark voor onderzoek naar besluitvorming, gebouwd op Pokémon's multi-agent gevechtssysteem en uitgebreide role-playing game (RPG)-omgeving. Partiële observeerbaarheid, speltheoretisch redeneren en planning over een lange horizon blijven open problemen voor frontier AI, maar weinig benchmarks belasten alle drie tegelijkertijd onder realistische omstandigheden. PokeAgent richt zich op deze beperkingen op schaal via twee complementaire tracks: onze Battling Track, die vraagt om strategisch redeneren en generalisatie onder partiële observeerbaarheid in competitieve Pokémon-gevechten, en onze Speedrunning Track, die planning over een lange horizon en sequentiële besluitvorming vereist in de Pokémon-RPG. Onze Battling Track biedt een dataset van meer dan 20 miljoen gevechtstrajecten naast een reeks heuristische, op reinforcement learning (RL) en op large language models (LLM's) gebaseerde baselines die tot hoog competitief spel in staat zijn. Onze Speedrunning Track biedt het eerste gestandaardiseerde evaluatieraamwerk voor RPG-speedrunning, inclusief een open-source multi-agent orchestratiesysteem voor modulaire, reproduceerbare vergelijkingen van op harness-gebaseerde LLM-benaderingen. Onze NeurIPS 2025-competitie valideert zowel de kwaliteit van onze middelen als de interesse van de onderzoeksgemeenschap in Pokémon, met meer dan 100 teams die aan beide tracks deelnamen en winnende oplossingen gedetailleerd in ons artikel. Inzendingen van deelnemers en onze baselines tonen aanzienlijke hiaten aan tussen generalistische (LLM), gespecialiseerde (RL) en elite menselijke prestaties. Analyse tegen de BenchPress-evaluatiematrix toont aan dat Pokémon-gevechten bijna orthogonaal zijn aan standaard LLM-benchmarks, waarbij ze capaciteiten meten die niet worden vastgelegd door bestaande suites en Pokémon positioneren als een onopgeloste benchmark die RL- en LLM-onderzoek vooruit kan helpen. Wij transitioneren naar een levende benchmark met een live leaderboard voor Battling en zelfstandige evaluatie voor Speedrunning op https://pokeagentchallenge.com.
English
We present the PokeAgent Challenge, a large-scale benchmark for decision-making research built on Pokemon's multi-agent battle system and expansive role-playing game (RPG) environment. Partial observability, game-theoretic reasoning, and long-horizon planning remain open problems for frontier AI, yet few benchmarks stress all three simultaneously under realistic conditions. PokeAgent targets these limitations at scale through two complementary tracks: our Battling Track, which calls for strategic reasoning and generalization under partial observability in competitive Pokemon battles, and our Speedrunning Track, which requires long-horizon planning and sequential decision-making in the Pokemon RPG. Our Battling Track supplies a dataset of 20M+ battle trajectories alongside a suite of heuristic, RL, and LLM-based baselines capable of high-level competitive play. Our Speedrunning Track provides the first standardized evaluation framework for RPG speedrunning, including an open-source multi-agent orchestration system for modular, reproducible comparisons of harness-based LLM approaches. Our NeurIPS 2025 competition validates both the quality of our resources and the research community's interest in Pokemon, with over 100 teams competing across both tracks and winning solutions detailed in our paper. Participant submissions and our baselines reveal considerable gaps between generalist (LLM), specialist (RL), and elite human performance. Analysis against the BenchPress evaluation matrix shows that Pokemon battling is nearly orthogonal to standard LLM benchmarks, measuring capabilities not captured by existing suites and positioning Pokemon as an unsolved benchmark that can drive RL and LLM research forward. We transition to a living benchmark with a live leaderboard for Battling and self-contained evaluation for Speedrunning at https://pokeagentchallenge.com.
PDF102March 24, 2026