BALROG: Evaluación comparativa del razonamiento agente de LLM y VLM en juegos

Resumen

Los Modelos de Lenguaje Grandes (LLMs) y los Modelos de Lenguaje de Visión (VLMs) poseen un amplio conocimiento y exhiben habilidades de razonamiento prometedoras; sin embargo, todavía tienen dificultades para desempeñarse bien en entornos complejos y dinámicos. Las tareas del mundo real requieren manejar interacciones intrincadas, razonamiento espacial avanzado, planificación a largo plazo y exploración continua de nuevas estrategias, áreas en las que carecemos de metodologías efectivas para evaluar de manera integral estas capacidades. Para abordar esta brecha, presentamos BALROG, un nuevo punto de referencia diseñado para evaluar las capacidades agentes de LLMs y VLMs a través de un conjunto diverso de juegos desafiantes. Nuestro punto de referencia incorpora una variedad de entornos de aprendizaje por refuerzo existentes con diferentes niveles de dificultad, incluidas tareas que pueden ser resueltas por humanos no expertos en segundos hasta otras extremadamente desafiantes que pueden llevar años dominar (por ejemplo, el Entorno de Aprendizaje NetHack). Diseñamos métricas detalladas para medir el rendimiento y realizamos una evaluación exhaustiva de varios LLMs y VLMs populares de código abierto y cerrado. Nuestros hallazgos indican que si bien los modelos actuales logran un éxito parcial en los juegos más fáciles, tienen dificultades significativas con las tareas más desafiantes. Específicamente, observamos deficiencias graves en la toma de decisiones basada en visión, ya que los modelos tienen un peor rendimiento cuando se les proporcionan representaciones visuales de los entornos. Publicamos BALROG como un punto de referencia abierto y fácil de usar para facilitar la investigación y el desarrollo futuro en la comunidad agente.

English

Large Language Models (LLMs) and Vision Language Models (VLMs) possess extensive knowledge and exhibit promising reasoning abilities; however, they still struggle to perform well in complex, dynamic environments. Real-world tasks require handling intricate interactions, advanced spatial reasoning, long-term planning, and continuous exploration of new strategies-areas in which we lack effective methodologies for comprehensively evaluating these capabilities. To address this gap, we introduce BALROG, a novel benchmark designed to assess the agentic capabilities of LLMs and VLMs through a diverse set of challenging games. Our benchmark incorporates a range of existing reinforcement learning environments with varying levels of difficulty, including tasks that are solvable by non-expert humans in seconds to extremely challenging ones that may take years to master (e.g., the NetHack Learning Environment). We devise fine-grained metrics to measure performance and conduct an extensive evaluation of several popular open-source and closed-source LLMs and VLMs. Our findings indicate that while current models achieve partial success in the easier games, they struggle significantly with more challenging tasks. Notably, we observe severe deficiencies in vision-based decision-making, as models perform worse when visual representations of the environments are provided. We release BALROG as an open and user-friendly benchmark to facilitate future research and development in the agentic community.

BALROG: Evaluación comparativa del razonamiento agente de LLM y VLM en juegos

BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games

Resumen

Support