HeroBench: Бенчмарк для долгосрочного планирования и структурированного рассуждения в виртуальных мирах

Аннотация

Крупные языковые модели (LLM) продемонстрировали впечатляющие способности в изолированных пошаговых задачах, таких как математика и программирование, однако их компетентность в долгосрочном планировании, где решения требуют протяженных, структурированных последовательностей взаимозависимых действий, остается недостаточно изученной. Существующие бенчмарки обычно оценивают LLM через абстрактные или низкоразмерные алгоритмические задачи, не учитывая сложность реалистичных сред планирования. Мы представляем HeroBench — новый бенчмарк, специально разработанный для оценки долгосрочного планирования и структурированного рассуждения в сложных виртуальных мирах, вдохновленных RPG. HeroBench предоставляет тщательно сконструированный набор задач, охватывающих широкий спектр сложностей, симулированную среду для выполнения и проверки планов агентов, а также детализированные аналитические инструменты для оценки производительности моделей. Задачи требуют от моделей формулирования стратегических планов, эффективного сбора ресурсов, освоения необходимых навыков, создания снаряжения и победы над противниками, отражая многоуровневые зависимости и ограничения практических сценариев. Наше масштабное тестирование 25 современных LLM, включая как открытые, так и проприетарные модели, в том числе семейство GPT-5, выявило значительные различия в производительности, редко наблюдаемые в традиционных бенчмарках на рассуждение. Детальный анализ ошибок также выявил конкретные слабости текущих моделей в генерации устойчивых высокоуровневых планов и надежном выполнении структурированных действий. Таким образом, HeroBench не только значительно продвигает оценку рассуждений LLM, но и предоставляет гибкую, масштабируемую основу для будущих исследований в области продвинутого автономного планирования в виртуальных средах.

English

Large language models (LLMs) have shown remarkable capabilities in isolated step-by-step reasoning tasks such as mathematics and programming, but their proficiency in long-horizon planning, where solutions require extended, structured sequences of interdependent actions, remains underexplored. Existing benchmarks typically assess LLMs through abstract or low-dimensional algorithmic tasks, failing to capture the complexity of realistic planning environments. We introduce HeroBench, a novel benchmark designed specifically to evaluate long-horizon planning and structured reasoning within complex RPG-inspired virtual worlds. HeroBench provides a rigorously constructed dataset of tasks covering a wide range of difficulties, a simulated environment to execute and validate agent plans, and detailed analytical tools for evaluating model performance. Tasks challenge models to formulate strategic plans, efficiently gather resources, master necessary skills, craft equipment, and defeat adversaries, reflecting practical scenarios' layered dependencies and constraints. Our extensive evaluation of 25 state-of-the-art LLMs, spanning both open-source and proprietary models, including the GPT-5 family, reveals substantial performance disparities rarely observed in conventional reasoning benchmarks. Detailed error analysis further uncovers specific weaknesses in current models' abilities to generate robust high-level plans and reliably execute structured actions. HeroBench thus not only significantly advances the evaluation of LLM reasoning but also provides a flexible, scalable foundation for future research into advanced, autonomous planning in virtual environments.