EmbodiedBench: Комплексное тестирование мультимодальных крупномасштабных языковых моделей для видеоориентированных инкорпорированных агентов
EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents
February 13, 2025
Авторы: Rui Yang, Hanyang Chen, Junyu Zhang, Mark Zhao, Cheng Qian, Kangrui Wang, Qineng Wang, Teja Venkat Koripella, Marziyeh Movahedi, Manling Li, Heng Ji, Huan Zhang, Tong Zhang
cs.AI
Аннотация
Использование много-модальных крупных языковых моделей (MLLM) для создания воплощенных агентов представляет собой многообещающий подход к решению задач реального мира. В то время как языково-центрические воплощенные агенты привлекли значительное внимание, воплощенные агенты на основе MLLM остаются малоисследованными из-за отсутствия комплексных критериев оценки. Для устранения этого пробела мы представляем EmbodiedBench, обширную платформу для оценки воплощенных агентов, работающих на основе зрительных данных. EmbodiedBench включает: (1) разнообразный набор из 1 128 тестовых задач в четырех средах, включая задачи высокого уровня семантики (например, домашние дела) и задачи низкого уровня, требующие атомарных действий (например, навигация и манипуляции); и (2) шесть тщательно подобранных подмножеств, оценивающих ключевые возможности агента, такие как здравый смысл, понимание сложных инструкций, пространственное восприятие, зрительное восприятие и долгосрочное планирование. Проведя обширные эксперименты, мы оценили 13 ведущих проприетарных и открытых MLLM в рамках EmbodiedBench. Наши результаты показывают, что MLLM преуспевают в задачах высокого уровня, но испытывают трудности с низкоуровневыми манипуляциями, причем лучшая модель, GPT-4o, в среднем набрала всего 28,9%. EmbodiedBench предоставляет многоаспектную стандартизированную платформу для оценки, которая не только выделяет существующие проблемы, но также предлагает ценные идеи для развития воплощенных агентов на основе MLLM. Наш код доступен по ссылке https://embodiedbench.github.io.
English
Leveraging Multi-modal Large Language Models (MLLMs) to create embodied
agents offers a promising avenue for tackling real-world tasks. While
language-centric embodied agents have garnered substantial attention,
MLLM-based embodied agents remain underexplored due to the lack of
comprehensive evaluation frameworks. To bridge this gap, we introduce
EmbodiedBench, an extensive benchmark designed to evaluate vision-driven
embodied agents. EmbodiedBench features: (1) a diverse set of 1,128 testing
tasks across four environments, ranging from high-level semantic tasks (e.g.,
household) to low-level tasks involving atomic actions (e.g., navigation and
manipulation); and (2) six meticulously curated subsets evaluating essential
agent capabilities like commonsense reasoning, complex instruction
understanding, spatial awareness, visual perception, and long-term planning.
Through extensive experiments, we evaluated 13 leading proprietary and
open-source MLLMs within EmbodiedBench. Our findings reveal that: MLLMs excel
at high-level tasks but struggle with low-level manipulation, with the best
model, GPT-4o, scoring only 28.9% on average. EmbodiedBench provides a
multifaceted standardized evaluation platform that not only highlights existing
challenges but also offers valuable insights to advance MLLM-based embodied
agents. Our code is available at https://embodiedbench.github.io.Summary
AI-Generated Summary