HeroBench: Een Benchmark voor Planning op Lange Termijn en Gestructureerd Redeneren in Virtuele Werelden
HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual Worlds
August 18, 2025
Auteurs: Petr Anokhin, Roman Khalikov, Stefan Rebrikov, Viktor Volkov, Artyom Sorokin, Vincent Bissonnette
cs.AI
Samenvatting
Grote taalmmodellen (LLMs) hebben opmerkelijke capaciteiten getoond in geïsoleerde, stapsgewijze redeneertaken zoals wiskunde en programmeren, maar hun vaardigheid in langetermijnplanning, waarbij oplossingen uitgebreide, gestructureerde reeksen van onderling afhankelijke acties vereisen, blijft onderbelicht. Bestaande benchmarks beoordelen LLMs doorgaans via abstracte of laagdimensionale algoritmische taken, waardoor de complexiteit van realistische planningsomgevingen niet wordt vastgelegd. Wij introduceren HeroBench, een nieuwe benchmark die specifiek is ontworpen om langetermijnplanning en gestructureerd redeneren binnen complexe, RPG-geïnspireerde virtuele werelden te evalueren. HeroBench biedt een rigoureus opgebouwde dataset van taken die een breed scala aan moeilijkheidsgraden omvat, een gesimuleerde omgeving om agentplannen uit te voeren en te valideren, en gedetailleerde analytische tools om modelprestaties te evalueren. Taken dagen modellen uit om strategische plannen te formuleren, efficiënt middelen te verzamelen, benodigde vaardigheden te beheersen, uitrusting te maken en tegenstanders te verslaan, waarbij de gelaagde afhankelijkheden en beperkingen van praktische scenario's worden weerspiegeld. Onze uitgebreide evaluatie van 25 state-of-the-art LLMs, zowel open-source als propriëtaire modellen, waaronder de GPT-5-familie, onthult aanzienlijke prestatieverschillen die zelden worden waargenomen in conventionele redeneerbenchmarks. Gedetailleerde foutenanalyse legt verder specifieke zwaktes bloot in de huidige modellen om robuuste hoogwaardige plannen te genereren en gestructureerde acties betrouwbaar uit te voeren. HeroBench bevordert dus niet alleen significant de evaluatie van LLM-redenering, maar biedt ook een flexibele, schaalbare basis voor toekomstig onderzoek naar geavanceerde, autonome planning in virtuele omgevingen.
English
Large language models (LLMs) have shown remarkable capabilities in isolated
step-by-step reasoning tasks such as mathematics and programming, but their
proficiency in long-horizon planning, where solutions require extended,
structured sequences of interdependent actions, remains underexplored. Existing
benchmarks typically assess LLMs through abstract or low-dimensional
algorithmic tasks, failing to capture the complexity of realistic planning
environments. We introduce HeroBench, a novel benchmark designed specifically
to evaluate long-horizon planning and structured reasoning within complex
RPG-inspired virtual worlds. HeroBench provides a rigorously constructed
dataset of tasks covering a wide range of difficulties, a simulated environment
to execute and validate agent plans, and detailed analytical tools for
evaluating model performance. Tasks challenge models to formulate strategic
plans, efficiently gather resources, master necessary skills, craft equipment,
and defeat adversaries, reflecting practical scenarios' layered dependencies
and constraints. Our extensive evaluation of 25 state-of-the-art LLMs, spanning
both open-source and proprietary models, including the GPT-5 family, reveals
substantial performance disparities rarely observed in conventional reasoning
benchmarks. Detailed error analysis further uncovers specific weaknesses in
current models' abilities to generate robust high-level plans and reliably
execute structured actions. HeroBench thus not only significantly advances the
evaluation of LLM reasoning but also provides a flexible, scalable foundation
for future research into advanced, autonomous planning in virtual environments.