HeroBench: Бенчмарк для долгосрочного планирования и структурированного рассуждения в виртуальных мирах
HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual Worlds
August 18, 2025
Авторы: Petr Anokhin, Roman Khalikov, Stefan Rebrikov, Viktor Volkov, Artyom Sorokin, Vincent Bissonnette
cs.AI
Аннотация
Крупные языковые модели (LLM) продемонстрировали впечатляющие способности в изолированных пошаговых задачах, таких как математика и программирование, однако их компетентность в долгосрочном планировании, где решения требуют протяженных, структурированных последовательностей взаимозависимых действий, остается недостаточно изученной. Существующие бенчмарки обычно оценивают LLM через абстрактные или низкоразмерные алгоритмические задачи, не учитывая сложность реалистичных сред планирования. Мы представляем HeroBench — новый бенчмарк, специально разработанный для оценки долгосрочного планирования и структурированного рассуждения в сложных виртуальных мирах, вдохновленных RPG. HeroBench предоставляет тщательно сконструированный набор задач, охватывающих широкий спектр сложностей, симулированную среду для выполнения и проверки планов агентов, а также детализированные аналитические инструменты для оценки производительности моделей. Задачи требуют от моделей формулирования стратегических планов, эффективного сбора ресурсов, освоения необходимых навыков, создания снаряжения и победы над противниками, отражая многоуровневые зависимости и ограничения практических сценариев. Наше масштабное тестирование 25 современных LLM, включая как открытые, так и проприетарные модели, в том числе семейство GPT-5, выявило значительные различия в производительности, редко наблюдаемые в традиционных бенчмарках на рассуждение. Детальный анализ ошибок также выявил конкретные слабости текущих моделей в генерации устойчивых высокоуровневых планов и надежном выполнении структурированных действий. Таким образом, HeroBench не только значительно продвигает оценку рассуждений LLM, но и предоставляет гибкую, масштабируемую основу для будущих исследований в области продвинутого автономного планирования в виртуальных средах.
English
Large language models (LLMs) have shown remarkable capabilities in isolated
step-by-step reasoning tasks such as mathematics and programming, but their
proficiency in long-horizon planning, where solutions require extended,
structured sequences of interdependent actions, remains underexplored. Existing
benchmarks typically assess LLMs through abstract or low-dimensional
algorithmic tasks, failing to capture the complexity of realistic planning
environments. We introduce HeroBench, a novel benchmark designed specifically
to evaluate long-horizon planning and structured reasoning within complex
RPG-inspired virtual worlds. HeroBench provides a rigorously constructed
dataset of tasks covering a wide range of difficulties, a simulated environment
to execute and validate agent plans, and detailed analytical tools for
evaluating model performance. Tasks challenge models to formulate strategic
plans, efficiently gather resources, master necessary skills, craft equipment,
and defeat adversaries, reflecting practical scenarios' layered dependencies
and constraints. Our extensive evaluation of 25 state-of-the-art LLMs, spanning
both open-source and proprietary models, including the GPT-5 family, reveals
substantial performance disparities rarely observed in conventional reasoning
benchmarks. Detailed error analysis further uncovers specific weaknesses in
current models' abilities to generate robust high-level plans and reliably
execute structured actions. HeroBench thus not only significantly advances the
evaluation of LLM reasoning but also provides a flexible, scalable foundation
for future research into advanced, autonomous planning in virtual environments.