EmbodiedBench: Evaluación Integral de Modelos de Lenguaje Multimodal de Gran Escala para Agentes Encarnados Impulsados por la Visión
EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents
February 13, 2025
Autores: Rui Yang, Hanyang Chen, Junyu Zhang, Mark Zhao, Cheng Qian, Kangrui Wang, Qineng Wang, Teja Venkat Koripella, Marziyeh Movahedi, Manling Li, Heng Ji, Huan Zhang, Tong Zhang
cs.AI
Resumen
El aprovechamiento de Modelos de Lenguaje Multimodales a Gran Escala (MLLMs, por sus siglas en inglés) para crear agentes incorporados ofrece una vía prometedora para abordar tareas del mundo real. Mientras que los agentes incorporados centrados en el lenguaje han recibido una atención considerable, los agentes incorporados basados en MLLMs siguen siendo poco explorados debido a la falta de marcos de evaluación integrales. Para cerrar esta brecha, presentamos EmbodiedBench, un extenso banco de pruebas diseñado para evaluar agentes incorporados impulsados por la visión. EmbodiedBench incluye: (1) un conjunto diverso de 1,128 tareas de prueba en cuatro entornos, que van desde tareas semánticas de alto nivel (por ejemplo, domésticas) hasta tareas de bajo nivel que implican acciones atómicas (por ejemplo, navegación y manipulación); y (2) seis subconjuntos meticulosamente seleccionados que evalúan capacidades esenciales del agente como el razonamiento del sentido común, la comprensión de instrucciones complejas, la conciencia espacial, la percepción visual y la planificación a largo plazo. A través de experimentos extensos, evaluamos 13 MLLMs líderes, tanto propietarios como de código abierto, dentro de EmbodiedBench. Nuestros hallazgos revelan que: los MLLMs destacan en tareas de alto nivel pero tienen dificultades con la manipulación de bajo nivel, siendo el mejor modelo, GPT-4o, con una puntuación promedio de solo 28.9%. EmbodiedBench proporciona una plataforma de evaluación estandarizada multifacética que no solo resalta los desafíos existentes, sino que también ofrece ideas valiosas para avanzar en agentes incorporados basados en MLLM. Nuestro código está disponible en https://embodiedbench.github.io.
English
Leveraging Multi-modal Large Language Models (MLLMs) to create embodied
agents offers a promising avenue for tackling real-world tasks. While
language-centric embodied agents have garnered substantial attention,
MLLM-based embodied agents remain underexplored due to the lack of
comprehensive evaluation frameworks. To bridge this gap, we introduce
EmbodiedBench, an extensive benchmark designed to evaluate vision-driven
embodied agents. EmbodiedBench features: (1) a diverse set of 1,128 testing
tasks across four environments, ranging from high-level semantic tasks (e.g.,
household) to low-level tasks involving atomic actions (e.g., navigation and
manipulation); and (2) six meticulously curated subsets evaluating essential
agent capabilities like commonsense reasoning, complex instruction
understanding, spatial awareness, visual perception, and long-term planning.
Through extensive experiments, we evaluated 13 leading proprietary and
open-source MLLMs within EmbodiedBench. Our findings reveal that: MLLMs excel
at high-level tasks but struggle with low-level manipulation, with the best
model, GPT-4o, scoring only 28.9% on average. EmbodiedBench provides a
multifaceted standardized evaluation platform that not only highlights existing
challenges but also offers valuable insights to advance MLLM-based embodied
agents. Our code is available at https://embodiedbench.github.io.Summary
AI-Generated Summary