HeroBench : Un benchmark pour la planification à long terme et le raisonnement structuré dans les mondes virtuels
HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual Worlds
August 18, 2025
papers.authors: Petr Anokhin, Roman Khalikov, Stefan Rebrikov, Viktor Volkov, Artyom Sorokin, Vincent Bissonnette
cs.AI
papers.abstract
Les grands modèles de langage (LLM) ont démontré des capacités remarquables dans des tâches de raisonnement pas à pas isolées telles que les mathématiques et la programmation, mais leur compétence en planification à long terme, où les solutions nécessitent des séquences étendues et structurées d'actions interdépendantes, reste peu explorée. Les benchmarks existants évaluent généralement les LLM à travers des tâches algorithmiques abstraites ou de faible dimension, ne parvenant pas à capturer la complexité des environnements de planification réalistes. Nous présentons HeroBench, un nouveau benchmark conçu spécifiquement pour évaluer la planification à long terme et le raisonnement structuré dans des mondes virtuels complexes inspirés des RPG. HeroBench fournit un ensemble de données rigoureusement construit de tâches couvrant un large éventail de difficultés, un environnement simulé pour exécuter et valider les plans des agents, et des outils analytiques détaillés pour évaluer la performance des modèles. Les tâches mettent les modèles au défi de formuler des plans stratégiques, de collecter efficacement des ressources, de maîtriser les compétences nécessaires, de fabriquer des équipements et de vaincre des adversaires, reflétant les dépendances et contraintes en couches des scénarios pratiques. Notre évaluation approfondie de 25 LLM de pointe, incluant à la fois des modèles open-source et propriétaires, dont la famille GPT-5, révèle des disparités de performance substantielles rarement observées dans les benchmarks de raisonnement conventionnels. Une analyse détaillée des erreurs met en lumière des faiblesses spécifiques dans les capacités des modèles actuels à générer des plans de haut niveau robustes et à exécuter de manière fiable des actions structurées. HeroBench non seulement fait progresser de manière significative l'évaluation du raisonnement des LLM, mais fournit également une base flexible et évolutive pour les recherches futures sur la planification autonome avancée dans les environnements virtuels.
English
Large language models (LLMs) have shown remarkable capabilities in isolated
step-by-step reasoning tasks such as mathematics and programming, but their
proficiency in long-horizon planning, where solutions require extended,
structured sequences of interdependent actions, remains underexplored. Existing
benchmarks typically assess LLMs through abstract or low-dimensional
algorithmic tasks, failing to capture the complexity of realistic planning
environments. We introduce HeroBench, a novel benchmark designed specifically
to evaluate long-horizon planning and structured reasoning within complex
RPG-inspired virtual worlds. HeroBench provides a rigorously constructed
dataset of tasks covering a wide range of difficulties, a simulated environment
to execute and validate agent plans, and detailed analytical tools for
evaluating model performance. Tasks challenge models to formulate strategic
plans, efficiently gather resources, master necessary skills, craft equipment,
and defeat adversaries, reflecting practical scenarios' layered dependencies
and constraints. Our extensive evaluation of 25 state-of-the-art LLMs, spanning
both open-source and proprietary models, including the GPT-5 family, reveals
substantial performance disparities rarely observed in conventional reasoning
benchmarks. Detailed error analysis further uncovers specific weaknesses in
current models' abilities to generate robust high-level plans and reliably
execute structured actions. HeroBench thus not only significantly advances the
evaluation of LLM reasoning but also provides a flexible, scalable foundation
for future research into advanced, autonomous planning in virtual environments.