HeroBench: Un punto de referencia para la planificación a largo plazo y el razonamiento estructurado en mundos virtuales
HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual Worlds
August 18, 2025
Autores: Petr Anokhin, Roman Khalikov, Stefan Rebrikov, Viktor Volkov, Artyom Sorokin, Vincent Bissonnette
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables en tareas de razonamiento paso a paso aisladas, como matemáticas y programación, pero su competencia en la planificación a largo plazo, donde las soluciones requieren secuencias estructuradas y extendidas de acciones interdependientes, sigue siendo poco explorada. Los puntos de referencia existentes suelen evaluar los LLMs mediante tareas algorítmicas abstractas o de baja dimensionalidad, sin capturar la complejidad de entornos de planificación realistas. Presentamos HeroBench, un nuevo punto de referencia diseñado específicamente para evaluar la planificación a largo plazo y el razonamiento estructurado en mundos virtuales complejos inspirados en juegos de rol (RPG). HeroBench ofrece un conjunto de datos rigurosamente construido que abarca una amplia gama de dificultades, un entorno simulado para ejecutar y validar los planes de los agentes, y herramientas analíticas detalladas para evaluar el rendimiento de los modelos. Las tareas desafían a los modelos a formular planes estratégicos, recolectar recursos de manera eficiente, dominar habilidades necesarias, elaborar equipamiento y derrotar adversarios, reflejando las dependencias y restricciones en capas de escenarios prácticos. Nuestra evaluación exhaustiva de 25 LLMs de vanguardia, que incluyen tanto modelos de código abierto como propietarios, incluida la familia GPT-5, revela disparidades sustanciales en el rendimiento que rara vez se observan en puntos de referencia convencionales de razonamiento. Un análisis detallado de errores descubre además debilidades específicas en las capacidades de los modelos actuales para generar planes robustos de alto nivel y ejecutar acciones estructuradas de manera confiable. HeroBench no solo avanza significativamente la evaluación del razonamiento de los LLMs, sino que también proporciona una base flexible y escalable para futuras investigaciones sobre planificación avanzada y autónoma en entornos virtuales.
English
Large language models (LLMs) have shown remarkable capabilities in isolated
step-by-step reasoning tasks such as mathematics and programming, but their
proficiency in long-horizon planning, where solutions require extended,
structured sequences of interdependent actions, remains underexplored. Existing
benchmarks typically assess LLMs through abstract or low-dimensional
algorithmic tasks, failing to capture the complexity of realistic planning
environments. We introduce HeroBench, a novel benchmark designed specifically
to evaluate long-horizon planning and structured reasoning within complex
RPG-inspired virtual worlds. HeroBench provides a rigorously constructed
dataset of tasks covering a wide range of difficulties, a simulated environment
to execute and validate agent plans, and detailed analytical tools for
evaluating model performance. Tasks challenge models to formulate strategic
plans, efficiently gather resources, master necessary skills, craft equipment,
and defeat adversaries, reflecting practical scenarios' layered dependencies
and constraints. Our extensive evaluation of 25 state-of-the-art LLMs, spanning
both open-source and proprietary models, including the GPT-5 family, reveals
substantial performance disparities rarely observed in conventional reasoning
benchmarks. Detailed error analysis further uncovers specific weaknesses in
current models' abilities to generate robust high-level plans and reliably
execute structured actions. HeroBench thus not only significantly advances the
evaluation of LLM reasoning but also provides a flexible, scalable foundation
for future research into advanced, autonomous planning in virtual environments.