HeroBench: Ein Benchmark für langfristige Planung und strukturiertes Denken in virtuellen Welten
HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual Worlds
August 18, 2025
papers.authors: Petr Anokhin, Roman Khalikov, Stefan Rebrikov, Viktor Volkov, Artyom Sorokin, Vincent Bissonnette
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten bei isolierten, schrittweisen Denkaufgaben wie Mathematik und Programmierung gezeigt, doch ihre Kompetenz in der langfristigen Planung, bei der Lösungen erweiterte, strukturierte Abfolgen voneinander abhängiger Aktionen erfordern, bleibt weitgehend unerforscht. Bestehende Benchmarks bewerten LLMs typischerweise durch abstrakte oder niedrigdimensionale algorithmische Aufgaben, wodurch die Komplexität realistischer Planungsumgebungen nicht erfasst wird. Wir stellen HeroBench vor, einen neuartigen Benchmark, der speziell entwickelt wurde, um langfristige Planung und strukturiertes Denken in komplexen, RPG-inspirierten virtuellen Welten zu bewerten. HeroBench bietet einen sorgfältig konstruierten Datensatz von Aufgaben, die eine breite Palette von Schwierigkeitsgraden abdecken, eine simulierte Umgebung zur Ausführung und Validierung von Agentenplänen sowie detaillierte Analysetools zur Bewertung der Modellleistung. Die Aufgaben fordern Modelle heraus, strategische Pläne zu formulieren, Ressourcen effizient zu sammeln, notwendige Fähigkeiten zu erlernen, Ausrüstung herzustellen und Gegner zu besiegen, wodurch die geschichteten Abhängigkeiten und Einschränkungen praktischer Szenarien widergespiegelt werden. Unsere umfangreiche Evaluierung von 25 state-of-the-art LLMs, darunter sowohl Open-Source- als auch proprietäre Modelle, einschließlich der GPT-5-Familie, zeigt erhebliche Leistungsunterschiede, die in konventionellen Denkbenchmarks selten beobachtet werden. Eine detaillierte Fehleranalyse deckt zudem spezifische Schwächen in der Fähigkeit aktueller Modelle auf, robuste hochrangige Pläne zu generieren und strukturierte Aktionen zuverlässig auszuführen. HeroBench schreitet somit nicht nur die Bewertung des Denkvermögens von LLMs erheblich voran, sondern bietet auch eine flexible, skalierbare Grundlage für zukünftige Forschungen zu fortgeschrittener, autonomer Planung in virtuellen Umgebungen.
English
Large language models (LLMs) have shown remarkable capabilities in isolated
step-by-step reasoning tasks such as mathematics and programming, but their
proficiency in long-horizon planning, where solutions require extended,
structured sequences of interdependent actions, remains underexplored. Existing
benchmarks typically assess LLMs through abstract or low-dimensional
algorithmic tasks, failing to capture the complexity of realistic planning
environments. We introduce HeroBench, a novel benchmark designed specifically
to evaluate long-horizon planning and structured reasoning within complex
RPG-inspired virtual worlds. HeroBench provides a rigorously constructed
dataset of tasks covering a wide range of difficulties, a simulated environment
to execute and validate agent plans, and detailed analytical tools for
evaluating model performance. Tasks challenge models to formulate strategic
plans, efficiently gather resources, master necessary skills, craft equipment,
and defeat adversaries, reflecting practical scenarios' layered dependencies
and constraints. Our extensive evaluation of 25 state-of-the-art LLMs, spanning
both open-source and proprietary models, including the GPT-5 family, reveals
substantial performance disparities rarely observed in conventional reasoning
benchmarks. Detailed error analysis further uncovers specific weaknesses in
current models' abilities to generate robust high-level plans and reliably
execute structured actions. HeroBench thus not only significantly advances the
evaluation of LLM reasoning but also provides a flexible, scalable foundation
for future research into advanced, autonomous planning in virtual environments.