Le Défi PokeAgent : Apprentissage Compétitif et Contexte Long à Grande Échelle
The PokeAgent Challenge: Competitive and Long-Context Learning at Scale
March 16, 2026
Auteurs: Seth Karten, Jake Grigsby, Tersoo Upaa, Junik Bae, Seonghun Hong, Hyunyoung Jeong, Jaeyoon Jung, Kun Kerdthaisong, Gyungbo Kim, Hyeokgi Kim, Yujin Kim, Eunju Kwon, Dongyu Liu, Patrick Mariglia, Sangyeon Park, Benedikt Schink, Xianwei Shi, Anthony Sistilli, Joseph Twin, Arian Urdu, Matin Urdu, Qiao Wang, Ling Wu, Wenli Zhang, Kunsheng Zhou, Stephanie Milani, Kiran Vodrahalli, Amy Zhang, Fei Fang, Yuke Zhu, Chi Jin
cs.AI
Résumé
Nous présentons le PokeAgent Challenge, une référence à grande échelle pour la recherche en prise de décision, construite sur le système de combat multi-agents de Pokémon et son vaste environnement de jeu de rôle (RPG). L'observabilité partielle, le raisonnement théorie des jeux et la planification à long terme demeurent des problèmes non résolus pour l'IA de pointe, mais peu de benchmarks sollicitent simultanément ces trois aspects dans des conditions réalistes. PokeAgent vise à combler ces lacunes à grande échelle grâce à deux volets complémentaires : notre volet Combat, qui nécessite un raisonnement stratégique et une généralisation sous observabilité partielle dans les combats Pokémon compétitifs, et notre volet Speedrunning, qui exige une planification à long terme et une prise de décision séquentielle dans le RPG Pokémon. Notre volet Combat fournit un jeu de données de plus de 20 millions de trajectoires de combat, accompagné d'une suite de modèles de référence heuristiques, par apprentissage par renforcement (RL) et basés sur les grands modèles de langage (LLM), capables d'un jeu compétitif de haut niveau. Notre volet Speedrunning offre le premier cadre d'évaluation standardisé pour le speedrunning de RPG, incluant un système d'orchestration multi-agents open source permettant des comparaisons modulaires et reproductibles des approches LLM instrumentées. Notre compétition NeurIPS 2025 valide à la fois la qualité de nos ressources et l'intérêt de la communauté de recherche pour Pokémon, avec plus de 100 équipes en compétition sur les deux volets et les solutions gagnantes détaillées dans notre article. Les soumissions des participants et nos modèles de référence révèlent des écarts considérables entre les performances des modèles généralistes (LLM), des modèles spécialisés (RL) et des joueurs humains d'élite. L'analyse via la matrice d'évaluation BenchPress montre que le combat Pokémon est quasi orthogonal aux benchmarks LLM standards, mesurant des capacités non capturées par les suites existantes et positionnant Pokémon comme un problème non résolu pouvant faire progresser la recherche en RL et LLM. Nous passons à un benchmark vivant avec un classement en direct pour le volet Combat et une évaluation autonome pour le volet Speedrunning sur https://pokeagentchallenge.com.
English
We present the PokeAgent Challenge, a large-scale benchmark for decision-making research built on Pokemon's multi-agent battle system and expansive role-playing game (RPG) environment. Partial observability, game-theoretic reasoning, and long-horizon planning remain open problems for frontier AI, yet few benchmarks stress all three simultaneously under realistic conditions. PokeAgent targets these limitations at scale through two complementary tracks: our Battling Track, which calls for strategic reasoning and generalization under partial observability in competitive Pokemon battles, and our Speedrunning Track, which requires long-horizon planning and sequential decision-making in the Pokemon RPG. Our Battling Track supplies a dataset of 20M+ battle trajectories alongside a suite of heuristic, RL, and LLM-based baselines capable of high-level competitive play. Our Speedrunning Track provides the first standardized evaluation framework for RPG speedrunning, including an open-source multi-agent orchestration system for modular, reproducible comparisons of harness-based LLM approaches. Our NeurIPS 2025 competition validates both the quality of our resources and the research community's interest in Pokemon, with over 100 teams competing across both tracks and winning solutions detailed in our paper. Participant submissions and our baselines reveal considerable gaps between generalist (LLM), specialist (RL), and elite human performance. Analysis against the BenchPress evaluation matrix shows that Pokemon battling is nearly orthogonal to standard LLM benchmarks, measuring capabilities not captured by existing suites and positioning Pokemon as an unsolved benchmark that can drive RL and LLM research forward. We transition to a living benchmark with a live leaderboard for Battling and self-contained evaluation for Speedrunning at https://pokeagentchallenge.com.