ChatPaper.aiChatPaper

O Desafio PokeAgent: Aprendizado Competitivo e de Contexto Longo em Escala

The PokeAgent Challenge: Competitive and Long-Context Learning at Scale

March 16, 2026
Autores: Seth Karten, Jake Grigsby, Tersoo Upaa, Junik Bae, Seonghun Hong, Hyunyoung Jeong, Jaeyoon Jung, Kun Kerdthaisong, Gyungbo Kim, Hyeokgi Kim, Yujin Kim, Eunju Kwon, Dongyu Liu, Patrick Mariglia, Sangyeon Park, Benedikt Schink, Xianwei Shi, Anthony Sistilli, Joseph Twin, Arian Urdu, Matin Urdu, Qiao Wang, Ling Wu, Wenli Zhang, Kunsheng Zhou, Stephanie Milani, Kiran Vodrahalli, Amy Zhang, Fei Fang, Yuke Zhu, Chi Jin
cs.AI

Resumo

Apresentamos o PokeAgent Challenge, um benchmark em larga escala para pesquisa em tomada de decisão, construído sobre o sistema de batalha multiagente de Pokémon e seu ambiente expansivo de jogo de RPG. A observabilidade parcial, o raciocínio da teoria dos jogos e o planejamento de longo prazo permanecem como problemas em aberto para a IA de fronteira, mas poucos benchmarks testam os três simultaneamente sob condições realistas. O PokeAgent visa superar essas limitações em escala por meio de duas modalidades complementares: nossa Modalidade de Batalha, que exige raciocínio estratégico e generalização sob observabilidade parcial em batalhas competitivas de Pokémon, e nossa Modalidade de Speedrunning, que requer planejamento de longo prazo e tomada de decisão sequencial no RPG de Pokémon. Nossa Modalidade de Batalha fornece um conjunto de dados com mais de 20 milhões de trajetórias de batalha, juntamente com um conjunto de linhas de base heurísticas, de RL (aprendizado por reforço) e baseadas em LLM (modelos de linguagem grandes) capazes de um desempenho competitivo de alto nível. Nossa Modalidade de Speedrunning fornece o primeiro framework de avaliação padronizado para speedrunning de RPG, incluindo um sistema de orquestração multiagente de código aberto para comparações modulares e reproduzíveis de abordagens de LLM baseadas em *harness*. Nossa competição no NeurIPS 2025 valida tanto a qualidade de nossos recursos quanto o interesse da comunidade de pesquisa em Pokémon, com mais de 100 equipes competindo em ambas as modalidades e as soluções vencedoras detalhadas em nosso artigo. Submissões dos participantes e nossas linhas de base revelam lacunas consideráveis entre o desempenho de modelos generalistas (LLM), especialistas (RL) e de elite humano. A análise contra a matriz de avaliação BenchPress mostra que as batalhas de Pokémon são quase ortogonais aos benchmarks padrão de LLM, medindo capacidades não capturadas por conjuntos existentes e posicionando Pokémon como um benchmark não resolvido que pode impulsionar a pesquisa em RL e LLM. Fazemos a transição para um benchmark vivo com uma *leaderboard* ao vivo para a Modalidade de Batalha e avaliação autônoma para a Modalidade de Speedrunning em https://pokeagentchallenge.com.
English
We present the PokeAgent Challenge, a large-scale benchmark for decision-making research built on Pokemon's multi-agent battle system and expansive role-playing game (RPG) environment. Partial observability, game-theoretic reasoning, and long-horizon planning remain open problems for frontier AI, yet few benchmarks stress all three simultaneously under realistic conditions. PokeAgent targets these limitations at scale through two complementary tracks: our Battling Track, which calls for strategic reasoning and generalization under partial observability in competitive Pokemon battles, and our Speedrunning Track, which requires long-horizon planning and sequential decision-making in the Pokemon RPG. Our Battling Track supplies a dataset of 20M+ battle trajectories alongside a suite of heuristic, RL, and LLM-based baselines capable of high-level competitive play. Our Speedrunning Track provides the first standardized evaluation framework for RPG speedrunning, including an open-source multi-agent orchestration system for modular, reproducible comparisons of harness-based LLM approaches. Our NeurIPS 2025 competition validates both the quality of our resources and the research community's interest in Pokemon, with over 100 teams competing across both tracks and winning solutions detailed in our paper. Participant submissions and our baselines reveal considerable gaps between generalist (LLM), specialist (RL), and elite human performance. Analysis against the BenchPress evaluation matrix shows that Pokemon battling is nearly orthogonal to standard LLM benchmarks, measuring capabilities not captured by existing suites and positioning Pokemon as an unsolved benchmark that can drive RL and LLM research forward. We transition to a living benchmark with a live leaderboard for Battling and self-contained evaluation for Speedrunning at https://pokeagentchallenge.com.
PDF102March 24, 2026