EmbodiedBench: Комплексное тестирование мультимодальных крупномасштабных языковых моделей для видеоориентированных инкорпорированных агентов

Аннотация

Использование много-модальных крупных языковых моделей (MLLM) для создания воплощенных агентов представляет собой многообещающий подход к решению задач реального мира. В то время как языково-центрические воплощенные агенты привлекли значительное внимание, воплощенные агенты на основе MLLM остаются малоисследованными из-за отсутствия комплексных критериев оценки. Для устранения этого пробела мы представляем EmbodiedBench, обширную платформу для оценки воплощенных агентов, работающих на основе зрительных данных. EmbodiedBench включает: (1) разнообразный набор из 1 128 тестовых задач в четырех средах, включая задачи высокого уровня семантики (например, домашние дела) и задачи низкого уровня, требующие атомарных действий (например, навигация и манипуляции); и (2) шесть тщательно подобранных подмножеств, оценивающих ключевые возможности агента, такие как здравый смысл, понимание сложных инструкций, пространственное восприятие, зрительное восприятие и долгосрочное планирование. Проведя обширные эксперименты, мы оценили 13 ведущих проприетарных и открытых MLLM в рамках EmbodiedBench. Наши результаты показывают, что MLLM преуспевают в задачах высокого уровня, но испытывают трудности с низкоуровневыми манипуляциями, причем лучшая модель, GPT-4o, в среднем набрала всего 28,9%. EmbodiedBench предоставляет многоаспектную стандартизированную платформу для оценки, которая не только выделяет существующие проблемы, но также предлагает ценные идеи для развития воплощенных агентов на основе MLLM. Наш код доступен по ссылке https://embodiedbench.github.io.

English

Leveraging Multi-modal Large Language Models (MLLMs) to create embodied agents offers a promising avenue for tackling real-world tasks. While language-centric embodied agents have garnered substantial attention, MLLM-based embodied agents remain underexplored due to the lack of comprehensive evaluation frameworks. To bridge this gap, we introduce EmbodiedBench, an extensive benchmark designed to evaluate vision-driven embodied agents. EmbodiedBench features: (1) a diverse set of 1,128 testing tasks across four environments, ranging from high-level semantic tasks (e.g., household) to low-level tasks involving atomic actions (e.g., navigation and manipulation); and (2) six meticulously curated subsets evaluating essential agent capabilities like commonsense reasoning, complex instruction understanding, spatial awareness, visual perception, and long-term planning. Through extensive experiments, we evaluated 13 leading proprietary and open-source MLLMs within EmbodiedBench. Our findings reveal that: MLLMs excel at high-level tasks but struggle with low-level manipulation, with the best model, GPT-4o, scoring only 28.9% on average. EmbodiedBench provides a multifaceted standardized evaluation platform that not only highlights existing challenges but also offers valuable insights to advance MLLM-based embodied agents. Our code is available at https://embodiedbench.github.io.

EmbodiedBench: Комплексное тестирование мультимодальных крупномасштабных языковых моделей для видеоориентированных инкорпорированных агентов

EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents

Аннотация

Support