El Desafío PokeAgent: Aprendizaje Competitivo y de Contexto Largo a Escala
The PokeAgent Challenge: Competitive and Long-Context Learning at Scale
March 16, 2026
Autores: Seth Karten, Jake Grigsby, Tersoo Upaa, Junik Bae, Seonghun Hong, Hyunyoung Jeong, Jaeyoon Jung, Kun Kerdthaisong, Gyungbo Kim, Hyeokgi Kim, Yujin Kim, Eunju Kwon, Dongyu Liu, Patrick Mariglia, Sangyeon Park, Benedikt Schink, Xianwei Shi, Anthony Sistilli, Joseph Twin, Arian Urdu, Matin Urdu, Qiao Wang, Ling Wu, Wenli Zhang, Kunsheng Zhou, Stephanie Milani, Kiran Vodrahalli, Amy Zhang, Fei Fang, Yuke Zhu, Chi Jin
cs.AI
Resumen
Presentamos el PokeAgent Challenge, un benchmark a gran escala para la investigación en toma de decisiones construido sobre el sistema de batallas multiagente de Pokémon y su expansivo entorno de juego de rol (RPG). La observabilidad parcial, el razonamiento de teoría de juegos y la planificación de largo horizonte siguen siendo problemas abiertos para la IA de vanguardia, pero pocos benchmarks tensionan los tres simultáneamente bajo condiciones realistas. PokeAgent aborda estas limitaciones a escala a través de dos modalidades complementarias: nuestra Modalidad de Batallas, que requiere razonamiento estratégico y generalización bajo observabilidad parcial en batallas competitivas de Pokémon, y nuestra Modalidad de Speedrunning, que exige planificación de largo horizonte y toma de decisiones secuencial en el RPG de Pokémon. Nuestra Modalidad de Batallas proporciona un conjunto de datos de más de 20 millones de trayectorias de batalla, junto con un conjunto de líneas base heurísticas, de aprendizaje por refuerzo (RL) y basadas en modelos de lenguaje grande (LLM) capaces de un juego competitivo de alto nivel. Nuestra Modalidad de Speedrunning ofrece el primer marco de evaluación estandarizado para speedrunning en RPG, incluyendo un sistema de orquestación multiagente de código abierto para comparaciones modulares y reproducibles de enfoques de LLM con arnés. Nuestra competencia en NeurIPS 2025 valida tanto la calidad de nuestros recursos como el interés de la comunidad investigadora en Pokémon, con más de 100 equipos compitiendo en ambas modalidades y las soluciones ganadoras detalladas en nuestro artículo. Las presentaciones de los participantes y nuestras líneas base revelan brechas considerables entre el rendimiento de modelos generalistas (LLM), especialistas (RL) y el de humanos de élite. El análisis contra la matriz de evaluación BenchPress muestra que las batallas de Pokémon son casi ortogonales a los benchmarks estándar de LLM, midiendo capacidades no capturadas por las suites existentes y posicionando a Pokémon como un benchmark no resuelto que puede impulsar la investigación en RL y LLM. Hacemos la transición a un benchmark vivo con una tabla de clasificación en vivo para Batallas y una evaluación autónoma para Speedrunning en https://pokeagentchallenge.com.
English
We present the PokeAgent Challenge, a large-scale benchmark for decision-making research built on Pokemon's multi-agent battle system and expansive role-playing game (RPG) environment. Partial observability, game-theoretic reasoning, and long-horizon planning remain open problems for frontier AI, yet few benchmarks stress all three simultaneously under realistic conditions. PokeAgent targets these limitations at scale through two complementary tracks: our Battling Track, which calls for strategic reasoning and generalization under partial observability in competitive Pokemon battles, and our Speedrunning Track, which requires long-horizon planning and sequential decision-making in the Pokemon RPG. Our Battling Track supplies a dataset of 20M+ battle trajectories alongside a suite of heuristic, RL, and LLM-based baselines capable of high-level competitive play. Our Speedrunning Track provides the first standardized evaluation framework for RPG speedrunning, including an open-source multi-agent orchestration system for modular, reproducible comparisons of harness-based LLM approaches. Our NeurIPS 2025 competition validates both the quality of our resources and the research community's interest in Pokemon, with over 100 teams competing across both tracks and winning solutions detailed in our paper. Participant submissions and our baselines reveal considerable gaps between generalist (LLM), specialist (RL), and elite human performance. Analysis against the BenchPress evaluation matrix shows that Pokemon battling is nearly orthogonal to standard LLM benchmarks, measuring capabilities not captured by existing suites and positioning Pokemon as an unsolved benchmark that can drive RL and LLM research forward. We transition to a living benchmark with a live leaderboard for Battling and self-contained evaluation for Speedrunning at https://pokeagentchallenge.com.