EmbodiedBench: Evaluación Integral de Modelos de Lenguaje Multimodal de Gran Escala para Agentes Encarnados Impulsados por la Visión

Resumen

El aprovechamiento de Modelos de Lenguaje Multimodales a Gran Escala (MLLMs, por sus siglas en inglés) para crear agentes incorporados ofrece una vía prometedora para abordar tareas del mundo real. Mientras que los agentes incorporados centrados en el lenguaje han recibido una atención considerable, los agentes incorporados basados en MLLMs siguen siendo poco explorados debido a la falta de marcos de evaluación integrales. Para cerrar esta brecha, presentamos EmbodiedBench, un extenso banco de pruebas diseñado para evaluar agentes incorporados impulsados por la visión. EmbodiedBench incluye: (1) un conjunto diverso de 1,128 tareas de prueba en cuatro entornos, que van desde tareas semánticas de alto nivel (por ejemplo, domésticas) hasta tareas de bajo nivel que implican acciones atómicas (por ejemplo, navegación y manipulación); y (2) seis subconjuntos meticulosamente seleccionados que evalúan capacidades esenciales del agente como el razonamiento del sentido común, la comprensión de instrucciones complejas, la conciencia espacial, la percepción visual y la planificación a largo plazo. A través de experimentos extensos, evaluamos 13 MLLMs líderes, tanto propietarios como de código abierto, dentro de EmbodiedBench. Nuestros hallazgos revelan que: los MLLMs destacan en tareas de alto nivel pero tienen dificultades con la manipulación de bajo nivel, siendo el mejor modelo, GPT-4o, con una puntuación promedio de solo 28.9%. EmbodiedBench proporciona una plataforma de evaluación estandarizada multifacética que no solo resalta los desafíos existentes, sino que también ofrece ideas valiosas para avanzar en agentes incorporados basados en MLLM. Nuestro código está disponible en https://embodiedbench.github.io.

English

Leveraging Multi-modal Large Language Models (MLLMs) to create embodied agents offers a promising avenue for tackling real-world tasks. While language-centric embodied agents have garnered substantial attention, MLLM-based embodied agents remain underexplored due to the lack of comprehensive evaluation frameworks. To bridge this gap, we introduce EmbodiedBench, an extensive benchmark designed to evaluate vision-driven embodied agents. EmbodiedBench features: (1) a diverse set of 1,128 testing tasks across four environments, ranging from high-level semantic tasks (e.g., household) to low-level tasks involving atomic actions (e.g., navigation and manipulation); and (2) six meticulously curated subsets evaluating essential agent capabilities like commonsense reasoning, complex instruction understanding, spatial awareness, visual perception, and long-term planning. Through extensive experiments, we evaluated 13 leading proprietary and open-source MLLMs within EmbodiedBench. Our findings reveal that: MLLMs excel at high-level tasks but struggle with low-level manipulation, with the best model, GPT-4o, scoring only 28.9% on average. EmbodiedBench provides a multifaceted standardized evaluation platform that not only highlights existing challenges but also offers valuable insights to advance MLLM-based embodied agents. Our code is available at https://embodiedbench.github.io.

EmbodiedBench: Evaluación Integral de Modelos de Lenguaje Multimodal de Gran Escala para Agentes Encarnados Impulsados por la Visión

EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents

Resumen

Support