ChatPaper.aiChatPaper

EmbodiedBench: Een uitgebreide benchmark voor multimodale grote taalmodellen voor op visie gebaseerde embodied agents.

EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents

February 13, 2025
Auteurs: Rui Yang, Hanyang Chen, Junyu Zhang, Mark Zhao, Cheng Qian, Kangrui Wang, Qineng Wang, Teja Venkat Koripella, Marziyeh Movahedi, Manling Li, Heng Ji, Huan Zhang, Tong Zhang
cs.AI

Samenvatting

Het benutten van Multi-modale Grote Taalmodellen (MLLM's) om belichaamde agenten te creëren, biedt een veelbelovende aanpak voor het aanpakken van taken in de echte wereld. Terwijl op taal gerichte belichaamde agenten aanzienlijke aandacht hebben gekregen, blijven MLLM-gebaseerde belichaamde agenten onderbelicht vanwege het ontbreken van uitgebreide evaluatiekaders. Om deze kloof te overbruggen, introduceren we EmbodiedBench, een uitgebreide benchmark ontworpen om op visie gebaseerde belichaamde agenten te evalueren. EmbodiedBench omvat: (1) een diverse set van 1.128 testtaken over vier omgevingen, variërend van hoog-niveau semantische taken (bijv. huishoudelijke taken) tot laag-niveau taken die betrekking hebben op elementaire handelingen (bijv. navigatie en manipulatie); en (2) zes zorgvuldig samengestelde subsets die essentiële agentcapaciteiten evalueren zoals gezond verstand redeneren, complexe instructiebegrip, ruimtelijk bewustzijn, visuele waarneming en langetermijnplanning. Door uitgebreide experimenten hebben we 13 toonaangevende gepatenteerde en open-source MLLM's geëvalueerd binnen EmbodiedBench. Onze bevindingen tonen aan dat: MLLM's uitblinken in hoog-niveau taken maar moeite hebben met laag-niveau manipulatie, waarbij het beste model, GPT-4o, gemiddeld slechts 28,9% scoort. EmbodiedBench biedt een veelzijdig gestandaardiseerd evaluatieplatform dat niet alleen bestaande uitdagingen benadrukt, maar ook waardevolle inzichten biedt om MLLM-gebaseerde belichaamde agenten verder te ontwikkelen. Onze code is beschikbaar op https://embodiedbench.github.io.
English
Leveraging Multi-modal Large Language Models (MLLMs) to create embodied agents offers a promising avenue for tackling real-world tasks. While language-centric embodied agents have garnered substantial attention, MLLM-based embodied agents remain underexplored due to the lack of comprehensive evaluation frameworks. To bridge this gap, we introduce EmbodiedBench, an extensive benchmark designed to evaluate vision-driven embodied agents. EmbodiedBench features: (1) a diverse set of 1,128 testing tasks across four environments, ranging from high-level semantic tasks (e.g., household) to low-level tasks involving atomic actions (e.g., navigation and manipulation); and (2) six meticulously curated subsets evaluating essential agent capabilities like commonsense reasoning, complex instruction understanding, spatial awareness, visual perception, and long-term planning. Through extensive experiments, we evaluated 13 leading proprietary and open-source MLLMs within EmbodiedBench. Our findings reveal that: MLLMs excel at high-level tasks but struggle with low-level manipulation, with the best model, GPT-4o, scoring only 28.9% on average. EmbodiedBench provides a multifaceted standardized evaluation platform that not only highlights existing challenges but also offers valuable insights to advance MLLM-based embodied agents. Our code is available at https://embodiedbench.github.io.

Summary

AI-Generated Summary

PDF362February 14, 2025