ChatPaper.aiChatPaper

HeroBench : Un benchmark pour la planification à long terme et le raisonnement structuré dans les mondes virtuels

HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual Worlds

August 18, 2025
papers.authors: Petr Anokhin, Roman Khalikov, Stefan Rebrikov, Viktor Volkov, Artyom Sorokin, Vincent Bissonnette
cs.AI

papers.abstract

Les grands modèles de langage (LLM) ont démontré des capacités remarquables dans des tâches de raisonnement pas à pas isolées telles que les mathématiques et la programmation, mais leur compétence en planification à long terme, où les solutions nécessitent des séquences étendues et structurées d'actions interdépendantes, reste peu explorée. Les benchmarks existants évaluent généralement les LLM à travers des tâches algorithmiques abstraites ou de faible dimension, ne parvenant pas à capturer la complexité des environnements de planification réalistes. Nous présentons HeroBench, un nouveau benchmark conçu spécifiquement pour évaluer la planification à long terme et le raisonnement structuré dans des mondes virtuels complexes inspirés des RPG. HeroBench fournit un ensemble de données rigoureusement construit de tâches couvrant un large éventail de difficultés, un environnement simulé pour exécuter et valider les plans des agents, et des outils analytiques détaillés pour évaluer la performance des modèles. Les tâches mettent les modèles au défi de formuler des plans stratégiques, de collecter efficacement des ressources, de maîtriser les compétences nécessaires, de fabriquer des équipements et de vaincre des adversaires, reflétant les dépendances et contraintes en couches des scénarios pratiques. Notre évaluation approfondie de 25 LLM de pointe, incluant à la fois des modèles open-source et propriétaires, dont la famille GPT-5, révèle des disparités de performance substantielles rarement observées dans les benchmarks de raisonnement conventionnels. Une analyse détaillée des erreurs met en lumière des faiblesses spécifiques dans les capacités des modèles actuels à générer des plans de haut niveau robustes et à exécuter de manière fiable des actions structurées. HeroBench non seulement fait progresser de manière significative l'évaluation du raisonnement des LLM, mais fournit également une base flexible et évolutive pour les recherches futures sur la planification autonome avancée dans les environnements virtuels.
English
Large language models (LLMs) have shown remarkable capabilities in isolated step-by-step reasoning tasks such as mathematics and programming, but their proficiency in long-horizon planning, where solutions require extended, structured sequences of interdependent actions, remains underexplored. Existing benchmarks typically assess LLMs through abstract or low-dimensional algorithmic tasks, failing to capture the complexity of realistic planning environments. We introduce HeroBench, a novel benchmark designed specifically to evaluate long-horizon planning and structured reasoning within complex RPG-inspired virtual worlds. HeroBench provides a rigorously constructed dataset of tasks covering a wide range of difficulties, a simulated environment to execute and validate agent plans, and detailed analytical tools for evaluating model performance. Tasks challenge models to formulate strategic plans, efficiently gather resources, master necessary skills, craft equipment, and defeat adversaries, reflecting practical scenarios' layered dependencies and constraints. Our extensive evaluation of 25 state-of-the-art LLMs, spanning both open-source and proprietary models, including the GPT-5 family, reveals substantial performance disparities rarely observed in conventional reasoning benchmarks. Detailed error analysis further uncovers specific weaknesses in current models' abilities to generate robust high-level plans and reliably execute structured actions. HeroBench thus not only significantly advances the evaluation of LLM reasoning but also provides a flexible, scalable foundation for future research into advanced, autonomous planning in virtual environments.
PDF212August 19, 2025