HeroBench: Un Benchmark per la Pianificazione a Lungo Termine e il Ragionamento Strutturato nei Mondi Virtuali
HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual Worlds
August 18, 2025
Autori: Petr Anokhin, Roman Khalikov, Stefan Rebrikov, Viktor Volkov, Artyom Sorokin, Vincent Bissonnette
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno dimostrato capacità notevoli in compiti di ragionamento passo-passo isolati come la matematica e la programmazione, ma la loro competenza nella pianificazione a lungo termine, dove le soluzioni richiedono sequenze estese e strutturate di azioni interdipendenti, rimane poco esplorata. Gli attuali benchmark valutano tipicamente gli LLM attraverso compiti algoritmici astratti o a bassa dimensionalità, non riuscendo a catturare la complessità degli ambienti di pianificazione realistici. Introduciamo HeroBench, un nuovo benchmark progettato specificamente per valutare la pianificazione a lungo termine e il ragionamento strutturato all'interno di mondi virtuali complessi ispirati ai giochi di ruolo. HeroBench fornisce un dataset rigorosamente costruito di compiti che coprono un'ampia gamma di difficoltà, un ambiente simulato per eseguire e validare i piani degli agenti, e strumenti analitici dettagliati per valutare le prestazioni dei modelli. I compiti sfidano i modelli a formulare piani strategici, raccogliere risorse in modo efficiente, padroneggiare le abilità necessarie, creare equipaggiamenti e sconfiggere avversari, riflettendo le dipendenze stratificate e i vincoli degli scenari pratici. La nostra valutazione estesa di 25 LLM all'avanguardia, che includono sia modelli open-source che proprietari, tra cui la famiglia GPT-5, rivela disparità di prestazioni sostanziali raramente osservate nei benchmark di ragionamento convenzionali. Un'analisi dettagliata degli errori svela ulteriori specifiche debolezze nelle capacità dei modelli attuali di generare piani di alto livello robusti e di eseguire azioni strutturate in modo affidabile. HeroBench non solo avanza significativamente la valutazione del ragionamento degli LLM, ma fornisce anche una base flessibile e scalabile per la ricerca futura sulla pianificazione avanzata e autonoma negli ambienti virtuali.
English
Large language models (LLMs) have shown remarkable capabilities in isolated
step-by-step reasoning tasks such as mathematics and programming, but their
proficiency in long-horizon planning, where solutions require extended,
structured sequences of interdependent actions, remains underexplored. Existing
benchmarks typically assess LLMs through abstract or low-dimensional
algorithmic tasks, failing to capture the complexity of realistic planning
environments. We introduce HeroBench, a novel benchmark designed specifically
to evaluate long-horizon planning and structured reasoning within complex
RPG-inspired virtual worlds. HeroBench provides a rigorously constructed
dataset of tasks covering a wide range of difficulties, a simulated environment
to execute and validate agent plans, and detailed analytical tools for
evaluating model performance. Tasks challenge models to formulate strategic
plans, efficiently gather resources, master necessary skills, craft equipment,
and defeat adversaries, reflecting practical scenarios' layered dependencies
and constraints. Our extensive evaluation of 25 state-of-the-art LLMs, spanning
both open-source and proprietary models, including the GPT-5 family, reveals
substantial performance disparities rarely observed in conventional reasoning
benchmarks. Detailed error analysis further uncovers specific weaknesses in
current models' abilities to generate robust high-level plans and reliably
execute structured actions. HeroBench thus not only significantly advances the
evaluation of LLM reasoning but also provides a flexible, scalable foundation
for future research into advanced, autonomous planning in virtual environments.