ChatPaper.aiChatPaper

EmbodiedBench : Évaluation Complète des Modèles de Langage Multi-modaux de Grande Taille pour les Agents Incarnés Pilotés par la Vision

EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents

February 13, 2025
Auteurs: Rui Yang, Hanyang Chen, Junyu Zhang, Mark Zhao, Cheng Qian, Kangrui Wang, Qineng Wang, Teja Venkat Koripella, Marziyeh Movahedi, Manling Li, Heng Ji, Huan Zhang, Tong Zhang
cs.AI

Résumé

L'utilisation des Modèles de Langage Multimodaux de Grande Taille (MLLM) pour créer des agents incarnés offre une voie prometteuse pour aborder des tâches du monde réel. Alors que les agents incarnés centrés sur le langage ont suscité une attention considérable, les agents incarnés basés sur les MLLM restent peu explorés en raison du manque de cadres d'évaluation complets. Pour combler cette lacune, nous présentons EmbodiedBench, un vaste banc d'essai conçu pour évaluer les agents incarnés pilotés par la vision. EmbodiedBench comprend : (1) un ensemble diversifié de 1 128 tâches de test réparties dans quatre environnements, allant de tâches sémantiques de haut niveau (par ex., ménage) à des tâches de bas niveau impliquant des actions atomiques (par ex., navigation et manipulation) ; et (2) six sous-ensembles méticuleusement sélectionnés évaluant des capacités essentielles des agents telles que le raisonnement de bon sens, la compréhension d'instructions complexes, la conscience spatiale, la perception visuelle et la planification à long terme. À travers des expériences approfondies, nous avons évalué 13 principaux MLLM propriétaires et open source au sein d'EmbodiedBench. Nos résultats révèlent que : les MLLM excellent dans les tâches de haut niveau mais éprouvent des difficultés avec la manipulation de bas niveau, le meilleur modèle, GPT-4o, obtenant en moyenne seulement 28,9 %. EmbodiedBench offre une plateforme d'évaluation standardisée multifacette qui met en lumière non seulement les défis existants, mais offre également des perspectives précieuses pour faire progresser les agents incarnés basés sur les MLLM. Notre code est disponible sur https://embodiedbench.github.io.
English
Leveraging Multi-modal Large Language Models (MLLMs) to create embodied agents offers a promising avenue for tackling real-world tasks. While language-centric embodied agents have garnered substantial attention, MLLM-based embodied agents remain underexplored due to the lack of comprehensive evaluation frameworks. To bridge this gap, we introduce EmbodiedBench, an extensive benchmark designed to evaluate vision-driven embodied agents. EmbodiedBench features: (1) a diverse set of 1,128 testing tasks across four environments, ranging from high-level semantic tasks (e.g., household) to low-level tasks involving atomic actions (e.g., navigation and manipulation); and (2) six meticulously curated subsets evaluating essential agent capabilities like commonsense reasoning, complex instruction understanding, spatial awareness, visual perception, and long-term planning. Through extensive experiments, we evaluated 13 leading proprietary and open-source MLLMs within EmbodiedBench. Our findings reveal that: MLLMs excel at high-level tasks but struggle with low-level manipulation, with the best model, GPT-4o, scoring only 28.9% on average. EmbodiedBench provides a multifaceted standardized evaluation platform that not only highlights existing challenges but also offers valuable insights to advance MLLM-based embodied agents. Our code is available at https://embodiedbench.github.io.
PDF362February 14, 2025