BALROG: Evaluación comparativa del razonamiento agente de LLM y VLM en juegos
BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games
November 20, 2024
Autores: Davide Paglieri, Bartłomiej Cupiał, Samuel Coward, Ulyana Piterbarg, Maciej Wolczyk, Akbir Khan, Eduardo Pignatelli, Łukasz Kuciński, Lerrel Pinto, Rob Fergus, Jakob Nicolaus Foerster, Jack Parker-Holder, Tim Rocktäschel
cs.AI
Resumen
Los Modelos de Lenguaje Grandes (LLMs) y los Modelos de Lenguaje de Visión (VLMs) poseen un amplio conocimiento y exhiben habilidades de razonamiento prometedoras; sin embargo, todavía tienen dificultades para desempeñarse bien en entornos complejos y dinámicos. Las tareas del mundo real requieren manejar interacciones intrincadas, razonamiento espacial avanzado, planificación a largo plazo y exploración continua de nuevas estrategias, áreas en las que carecemos de metodologías efectivas para evaluar de manera integral estas capacidades. Para abordar esta brecha, presentamos BALROG, un nuevo punto de referencia diseñado para evaluar las capacidades agentes de LLMs y VLMs a través de un conjunto diverso de juegos desafiantes. Nuestro punto de referencia incorpora una variedad de entornos de aprendizaje por refuerzo existentes con diferentes niveles de dificultad, incluidas tareas que pueden ser resueltas por humanos no expertos en segundos hasta otras extremadamente desafiantes que pueden llevar años dominar (por ejemplo, el Entorno de Aprendizaje NetHack). Diseñamos métricas detalladas para medir el rendimiento y realizamos una evaluación exhaustiva de varios LLMs y VLMs populares de código abierto y cerrado. Nuestros hallazgos indican que si bien los modelos actuales logran un éxito parcial en los juegos más fáciles, tienen dificultades significativas con las tareas más desafiantes. Específicamente, observamos deficiencias graves en la toma de decisiones basada en visión, ya que los modelos tienen un peor rendimiento cuando se les proporcionan representaciones visuales de los entornos. Publicamos BALROG como un punto de referencia abierto y fácil de usar para facilitar la investigación y el desarrollo futuro en la comunidad agente.
English
Large Language Models (LLMs) and Vision Language Models (VLMs) possess
extensive knowledge and exhibit promising reasoning abilities; however, they
still struggle to perform well in complex, dynamic environments. Real-world
tasks require handling intricate interactions, advanced spatial reasoning,
long-term planning, and continuous exploration of new strategies-areas in which
we lack effective methodologies for comprehensively evaluating these
capabilities. To address this gap, we introduce BALROG, a novel benchmark
designed to assess the agentic capabilities of LLMs and VLMs through a diverse
set of challenging games. Our benchmark incorporates a range of existing
reinforcement learning environments with varying levels of difficulty,
including tasks that are solvable by non-expert humans in seconds to extremely
challenging ones that may take years to master (e.g., the NetHack Learning
Environment). We devise fine-grained metrics to measure performance and conduct
an extensive evaluation of several popular open-source and closed-source LLMs
and VLMs. Our findings indicate that while current models achieve partial
success in the easier games, they struggle significantly with more challenging
tasks. Notably, we observe severe deficiencies in vision-based decision-making,
as models perform worse when visual representations of the environments are
provided. We release BALROG as an open and user-friendly benchmark to
facilitate future research and development in the agentic community.Summary
AI-Generated Summary