EmbodiedBench: Avaliação Abrangente de Modelos de Linguagem Multimodais de Grande Escala para Agentes Encarnados Orientados pela Visão
EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents
February 13, 2025
Autores: Rui Yang, Hanyang Chen, Junyu Zhang, Mark Zhao, Cheng Qian, Kangrui Wang, Qineng Wang, Teja Venkat Koripella, Marziyeh Movahedi, Manling Li, Heng Ji, Huan Zhang, Tong Zhang
cs.AI
Resumo
Aproveitar os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) para criar agentes incorporados oferece uma via promissora para lidar com tarefas do mundo real. Enquanto os agentes incorporados centrados na linguagem têm recebido atenção substancial, os agentes incorporados baseados em MLLMs permanecem pouco explorados devido à falta de estruturas abrangentes de avaliação. Para preencher essa lacuna, apresentamos o EmbodiedBench, um extenso benchmark projetado para avaliar agentes incorporados orientados pela visão. O EmbodiedBench apresenta: (1) um conjunto diversificado de 1.128 tarefas de teste em quatro ambientes, abrangendo desde tarefas semânticas de alto nível (por exemplo, domésticas) até tarefas de baixo nível envolvendo ações atômicas (por exemplo, navegação e manipulação); e (2) seis subconjuntos meticulosamente elaborados que avaliam capacidades essenciais do agente, como raciocínio do senso comum, compreensão de instruções complexas, consciência espacial, percepção visual e planejamento de longo prazo. Através de experimentos extensivos, avaliamos 13 principais MLLMs proprietários e de código aberto dentro do EmbodiedBench. Nossas descobertas revelam que: MLLMs se destacam em tarefas de alto nível, mas têm dificuldades com manipulação de baixo nível, sendo que o melhor modelo, GPT-4o, obteve uma pontuação média de apenas 28,9%. O EmbodiedBench fornece uma plataforma de avaliação padronizada multifacetada que não apenas destaca desafios existentes, mas também oferece insights valiosos para avançar os agentes incorporados baseados em MLLM. Nosso código está disponível em https://embodiedbench.github.io.
English
Leveraging Multi-modal Large Language Models (MLLMs) to create embodied
agents offers a promising avenue for tackling real-world tasks. While
language-centric embodied agents have garnered substantial attention,
MLLM-based embodied agents remain underexplored due to the lack of
comprehensive evaluation frameworks. To bridge this gap, we introduce
EmbodiedBench, an extensive benchmark designed to evaluate vision-driven
embodied agents. EmbodiedBench features: (1) a diverse set of 1,128 testing
tasks across four environments, ranging from high-level semantic tasks (e.g.,
household) to low-level tasks involving atomic actions (e.g., navigation and
manipulation); and (2) six meticulously curated subsets evaluating essential
agent capabilities like commonsense reasoning, complex instruction
understanding, spatial awareness, visual perception, and long-term planning.
Through extensive experiments, we evaluated 13 leading proprietary and
open-source MLLMs within EmbodiedBench. Our findings reveal that: MLLMs excel
at high-level tasks but struggle with low-level manipulation, with the best
model, GPT-4o, scoring only 28.9% on average. EmbodiedBench provides a
multifaceted standardized evaluation platform that not only highlights existing
challenges but also offers valuable insights to advance MLLM-based embodied
agents. Our code is available at https://embodiedbench.github.io.Summary
AI-Generated Summary