ChatPaper.aiChatPaper

EmbodiedBench: Umfassendes Benchmarking für multimodale große Sprachmodelle für visiongesteuerte verkörperte Agenten

EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents

February 13, 2025
Autoren: Rui Yang, Hanyang Chen, Junyu Zhang, Mark Zhao, Cheng Qian, Kangrui Wang, Qineng Wang, Teja Venkat Koripella, Marziyeh Movahedi, Manling Li, Heng Ji, Huan Zhang, Tong Zhang
cs.AI

Zusammenfassung

Die Nutzung von Multi-modalen Large Language Models (MLLMs) zur Erstellung von verkörperten Agenten bietet einen vielversprechenden Ansatz zur Bewältigung realer Aufgaben. Während sprachzentrierte verkörperte Agenten erhebliche Aufmerksamkeit erregt haben, sind MLLM-basierte verkörperte Agenten aufgrund des Mangels an umfassenden Bewertungsrahmen noch wenig erforscht. Um diese Lücke zu schließen, stellen wir EmbodiedBench vor, einen umfangreichen Benchmark, der entwickelt wurde, um visionbasierte verkörperte Agenten zu bewerten. EmbodiedBench umfasst: (1) eine vielfältige Sammlung von 1.128 Testaufgaben in vier Umgebungen, die von hochrangigen semantischen Aufgaben (z.B. Haushalt) bis hin zu niederwertigen Aufgaben mit atomaren Aktionen (z.B. Navigation und Manipulation) reichen; und (2) sechs sorgfältig zusammengestellte Untermengen, die wesentliche Agentenfähigkeiten wie gesunden Menschenverstand, komplexe Anweisungsverständnis, räumliches Bewusstsein, visuelle Wahrnehmung und langfristige Planung bewerten. Durch umfangreiche Experimente haben wir 13 führende proprietäre und Open-Source MLLMs innerhalb von EmbodiedBench bewertet. Unsere Ergebnisse zeigen, dass MLLMs bei hochrangigen Aufgaben glänzen, aber Schwierigkeiten bei niederwertiger Manipulation haben, wobei das beste Modell, GPT-4o, nur durchschnittlich 28,9% erreicht. EmbodiedBench bietet eine vielschichtige standardisierte Bewertungsplattform, die nicht nur bestehende Herausforderungen aufzeigt, sondern auch wertvolle Einblicke zur Weiterentwicklung von MLLM-basierten verkörperten Agenten bietet. Unser Code ist unter https://embodiedbench.github.io verfügbar.
English
Leveraging Multi-modal Large Language Models (MLLMs) to create embodied agents offers a promising avenue for tackling real-world tasks. While language-centric embodied agents have garnered substantial attention, MLLM-based embodied agents remain underexplored due to the lack of comprehensive evaluation frameworks. To bridge this gap, we introduce EmbodiedBench, an extensive benchmark designed to evaluate vision-driven embodied agents. EmbodiedBench features: (1) a diverse set of 1,128 testing tasks across four environments, ranging from high-level semantic tasks (e.g., household) to low-level tasks involving atomic actions (e.g., navigation and manipulation); and (2) six meticulously curated subsets evaluating essential agent capabilities like commonsense reasoning, complex instruction understanding, spatial awareness, visual perception, and long-term planning. Through extensive experiments, we evaluated 13 leading proprietary and open-source MLLMs within EmbodiedBench. Our findings reveal that: MLLMs excel at high-level tasks but struggle with low-level manipulation, with the best model, GPT-4o, scoring only 28.9% on average. EmbodiedBench provides a multifaceted standardized evaluation platform that not only highlights existing challenges but also offers valuable insights to advance MLLM-based embodied agents. Our code is available at https://embodiedbench.github.io.

Summary

AI-Generated Summary

PDF362February 14, 2025