ChatPaper.aiChatPaper

Вызов PokeAgent: Состязательное обучение и работа с длинными контекстами в больших масштабах

The PokeAgent Challenge: Competitive and Long-Context Learning at Scale

March 16, 2026
Авторы: Seth Karten, Jake Grigsby, Tersoo Upaa, Junik Bae, Seonghun Hong, Hyunyoung Jeong, Jaeyoon Jung, Kun Kerdthaisong, Gyungbo Kim, Hyeokgi Kim, Yujin Kim, Eunju Kwon, Dongyu Liu, Patrick Mariglia, Sangyeon Park, Benedikt Schink, Xianwei Shi, Anthony Sistilli, Joseph Twin, Arian Urdu, Matin Urdu, Qiao Wang, Ling Wu, Wenli Zhang, Kunsheng Zhou, Stephanie Milani, Kiran Vodrahalli, Amy Zhang, Fei Fang, Yuke Zhu, Chi Jin
cs.AI

Аннотация

Мы представляем PokeAgent Challenge — масштабный бенчмарк для исследований в области принятия решений, построенный на основе многопользовательской боевой системы Pokémon и обширной среды ролевой игры (RPG). Частичная наблюдаемость, теория игр и долгосрочное планирование остаются нерешенными проблемами для передового ИИ, однако немногие бенчмарки одновременно проверяют все три аспекта в реалистичных условиях. PokeAgent решает эти ограничения в масштабе через два взаимодополняющих направления: Боевой трек, требующий стратегического мышления и обобщения в условиях частичной наблюдаемости в соревновательных боях Pokémon, и Спидра́ннерский трек, ориентированный на долгосрочное планирование и последовательное принятие решений в RPG-составляющей Pokémon. Наш Боевой трек предоставляет набор данных из более чем 20 миллионов траекторий боев вместе с набором эвристических, RL- и LLM-базисов, способных на высокоуровневую соревновательную игру. Спидра́ннерский трек предлагает первую стандартизированную систему оценки для спидра́ннинга в RPG, включая систему оркестрации с открытым исходным кодом для модульных и воспроизводимых сравнений LLM-подходов. Наш конкурс NeurIPS 2025 подтверждает как качество наших ресурсов, так и интерес научного сообщества к Pokémon: более 100 команд участвовали в обоих треках, а решения победителей детально описаны в нашей статье. Результаты участников и наши базисы демонстрируют значительный разрыв между универсальными (LLM), специализированными (RL) и элитными человеческими показателями. Анализ с помощью матрицы оценки BenchPress показывает, что бои в Pokémon почти ортогональны стандартным LLM-бенчмаркам, измеряя способности, не охваченные существующими наборами, и позиционируя Pokémon как нерешенный бенчмарк, способный продвинуть исследования в области RL и LLM. Мы переходим к формату «живого» бенчмарка с онлайн-таблицей лидеров для Боевого трека и автономной системой оценки для Спидра́ннерского трека на https://pokeagentchallenge.com.
English
We present the PokeAgent Challenge, a large-scale benchmark for decision-making research built on Pokemon's multi-agent battle system and expansive role-playing game (RPG) environment. Partial observability, game-theoretic reasoning, and long-horizon planning remain open problems for frontier AI, yet few benchmarks stress all three simultaneously under realistic conditions. PokeAgent targets these limitations at scale through two complementary tracks: our Battling Track, which calls for strategic reasoning and generalization under partial observability in competitive Pokemon battles, and our Speedrunning Track, which requires long-horizon planning and sequential decision-making in the Pokemon RPG. Our Battling Track supplies a dataset of 20M+ battle trajectories alongside a suite of heuristic, RL, and LLM-based baselines capable of high-level competitive play. Our Speedrunning Track provides the first standardized evaluation framework for RPG speedrunning, including an open-source multi-agent orchestration system for modular, reproducible comparisons of harness-based LLM approaches. Our NeurIPS 2025 competition validates both the quality of our resources and the research community's interest in Pokemon, with over 100 teams competing across both tracks and winning solutions detailed in our paper. Participant submissions and our baselines reveal considerable gaps between generalist (LLM), specialist (RL), and elite human performance. Analysis against the BenchPress evaluation matrix shows that Pokemon battling is nearly orthogonal to standard LLM benchmarks, measuring capabilities not captured by existing suites and positioning Pokemon as an unsolved benchmark that can drive RL and LLM research forward. We transition to a living benchmark with a live leaderboard for Battling and self-contained evaluation for Speedrunning at https://pokeagentchallenge.com.
PDF92March 18, 2026