HeroBench: Um Benchmark para Planejamento de Longo Prazo e Raciocínio Estruturado em Mundos Virtuais
HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual Worlds
August 18, 2025
Autores: Petr Anokhin, Roman Khalikov, Stefan Rebrikov, Viktor Volkov, Artyom Sorokin, Vincent Bissonnette
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) demonstraram capacidades notáveis em tarefas de raciocínio passo a passo isoladas, como matemática e programação, mas sua proficiência em planejamento de longo horizonte, onde as soluções exigem sequências estruturadas e extensas de ações interdependentes, permanece pouco explorada. Os benchmarks existentes geralmente avaliam LLMs por meio de tarefas algorítmicas abstratas ou de baixa dimensionalidade, falhando em capturar a complexidade de ambientes de planejamento realistas. Apresentamos o HeroBench, um novo benchmark projetado especificamente para avaliar o planejamento de longo horizonte e o raciocínio estruturado em mundos virtuais complexos inspirados em RPGs. O HeroBench fornece um conjunto de dados rigorosamente construído de tarefas que abrangem uma ampla gama de dificuldades, um ambiente simulado para executar e validar os planos dos agentes, e ferramentas analíticas detalhadas para avaliar o desempenho dos modelos. As tarefas desafiam os modelos a formular planos estratégicos, reunir recursos de forma eficiente, dominar habilidades necessárias, criar equipamentos e derrotar adversários, refletindo as dependências em camadas e as restrições de cenários práticos. Nossa extensa avaliação de 25 LLMs de última geração, abrangendo tanto modelos de código aberto quanto proprietários, incluindo a família GPT-5, revela disparidades substanciais de desempenho raramente observadas em benchmarks convencionais de raciocínio. Uma análise detalhada de erros ainda revela fraquezas específicas nas habilidades dos modelos atuais para gerar planos robustos de alto nível e executar ações estruturadas de forma confiável. O HeroBench, portanto, não apenas avança significativamente a avaliação do raciocínio de LLMs, mas também fornece uma base flexível e escalável para pesquisas futuras sobre planejamento avançado e autônomo em ambientes virtuais.
English
Large language models (LLMs) have shown remarkable capabilities in isolated
step-by-step reasoning tasks such as mathematics and programming, but their
proficiency in long-horizon planning, where solutions require extended,
structured sequences of interdependent actions, remains underexplored. Existing
benchmarks typically assess LLMs through abstract or low-dimensional
algorithmic tasks, failing to capture the complexity of realistic planning
environments. We introduce HeroBench, a novel benchmark designed specifically
to evaluate long-horizon planning and structured reasoning within complex
RPG-inspired virtual worlds. HeroBench provides a rigorously constructed
dataset of tasks covering a wide range of difficulties, a simulated environment
to execute and validate agent plans, and detailed analytical tools for
evaluating model performance. Tasks challenge models to formulate strategic
plans, efficiently gather resources, master necessary skills, craft equipment,
and defeat adversaries, reflecting practical scenarios' layered dependencies
and constraints. Our extensive evaluation of 25 state-of-the-art LLMs, spanning
both open-source and proprietary models, including the GPT-5 family, reveals
substantial performance disparities rarely observed in conventional reasoning
benchmarks. Detailed error analysis further uncovers specific weaknesses in
current models' abilities to generate robust high-level plans and reliably
execute structured actions. HeroBench thus not only significantly advances the
evaluation of LLM reasoning but also provides a flexible, scalable foundation
for future research into advanced, autonomous planning in virtual environments.