ChatPaper.aiChatPaper

La Sfida PokeAgent: Apprendimento Competitivo e su Contesti Lunghi su Larga Scala

The PokeAgent Challenge: Competitive and Long-Context Learning at Scale

March 16, 2026
Autori: Seth Karten, Jake Grigsby, Tersoo Upaa, Junik Bae, Seonghun Hong, Hyunyoung Jeong, Jaeyoon Jung, Kun Kerdthaisong, Gyungbo Kim, Hyeokgi Kim, Yujin Kim, Eunju Kwon, Dongyu Liu, Patrick Mariglia, Sangyeon Park, Benedikt Schink, Xianwei Shi, Anthony Sistilli, Joseph Twin, Arian Urdu, Matin Urdu, Qiao Wang, Ling Wu, Wenli Zhang, Kunsheng Zhou, Stephanie Milani, Kiran Vodrahalli, Amy Zhang, Fei Fang, Yuke Zhu, Chi Jin
cs.AI

Abstract

Presentiamo la PokeAgent Challenge, un benchmark su larga scala per la ricerca sul processo decisionale, costruito sul sistema di battaglia multi-agente di Pokémon e sul suo ampio ambiente di gioco di ruolo (RPG). L'osservabilità parziale, il ragionamento di teoria dei giochi e la pianificazione a lungo termine rimangono problemi aperti per l'IA di frontiera, eppure pochi benchmark sollecitano tutte e tre queste dimensioni simultaneamente in condizioni realistiche. PokeAgent affronta queste limitazioni su larga scala attraverso due percorsi complementari: il nostro Battling Track, che richiede ragionamento strategico e generalizzazione in condizioni di osservabilità parziale nelle battaglie competitive di Pokémon, e il nostro Speedrunning Track, che richiede pianificazione a lungo termine e processi decisionali sequenziali nell'RPG di Pokémon. Il nostro Battling Track fornisce un dataset di oltre 20 milioni di traiettorie di battaglia, insieme a una suite di baseline euristici, basati su RL e LLM, capaci di gameplay competitivo di alto livello. Il nostro Speedrunning Track fornisce il primo framework di valutazione standardizzato per lo speedrunning negli RPG, includendo un sistema di orchestrazione multi-agente open-source per confronti modulari e riproducibili di approcci LLM basati su harness. La nostra competizione NeurIPS 2025 convalida sia la qualità delle nostre risorse che l'interesse della comunità di ricerca per Pokémon, con oltre 100 team in competizione in entrambi i percorsi e le soluzioni vincitrici dettagliate nel nostro articolo. Le submission dei partecipanti e i nostri baseline rivelano divari considerevoli tra le prestazioni dei modelli generalisti (LLM), di quelli specializzati (RL) e quelle dell'élite umana. L'analisi condotta rispetto alla matrice di valutazione BenchPress mostra che le battaglie Pokémon sono quasi ortogonali ai benchmark LLM standard, misurando capacità non catturate dalle suite esistenti e posizionando Pokémon come un benchmark non risolto che può spingere avanti la ricerca su RL e LLM. Transiteremo verso un benchmark vivente con una classifica live per il Battling e una valutazione autonoma per lo Speedrunning su https://pokeagentchallenge.com.
English
We present the PokeAgent Challenge, a large-scale benchmark for decision-making research built on Pokemon's multi-agent battle system and expansive role-playing game (RPG) environment. Partial observability, game-theoretic reasoning, and long-horizon planning remain open problems for frontier AI, yet few benchmarks stress all three simultaneously under realistic conditions. PokeAgent targets these limitations at scale through two complementary tracks: our Battling Track, which calls for strategic reasoning and generalization under partial observability in competitive Pokemon battles, and our Speedrunning Track, which requires long-horizon planning and sequential decision-making in the Pokemon RPG. Our Battling Track supplies a dataset of 20M+ battle trajectories alongside a suite of heuristic, RL, and LLM-based baselines capable of high-level competitive play. Our Speedrunning Track provides the first standardized evaluation framework for RPG speedrunning, including an open-source multi-agent orchestration system for modular, reproducible comparisons of harness-based LLM approaches. Our NeurIPS 2025 competition validates both the quality of our resources and the research community's interest in Pokemon, with over 100 teams competing across both tracks and winning solutions detailed in our paper. Participant submissions and our baselines reveal considerable gaps between generalist (LLM), specialist (RL), and elite human performance. Analysis against the BenchPress evaluation matrix shows that Pokemon battling is nearly orthogonal to standard LLM benchmarks, measuring capabilities not captured by existing suites and positioning Pokemon as an unsolved benchmark that can drive RL and LLM research forward. We transition to a living benchmark with a live leaderboard for Battling and self-contained evaluation for Speedrunning at https://pokeagentchallenge.com.
PDF102March 24, 2026