EmbodiedBench: Umfassendes Benchmarking für multimodale große Sprachmodelle für visiongesteuerte verkörperte Agenten
EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents
February 13, 2025
Autoren: Rui Yang, Hanyang Chen, Junyu Zhang, Mark Zhao, Cheng Qian, Kangrui Wang, Qineng Wang, Teja Venkat Koripella, Marziyeh Movahedi, Manling Li, Heng Ji, Huan Zhang, Tong Zhang
cs.AI
Zusammenfassung
Die Nutzung von Multi-modalen Large Language Models (MLLMs) zur Erstellung von verkörperten Agenten bietet einen vielversprechenden Ansatz zur Bewältigung realer Aufgaben. Während sprachzentrierte verkörperte Agenten erhebliche Aufmerksamkeit erregt haben, sind MLLM-basierte verkörperte Agenten aufgrund des Mangels an umfassenden Bewertungsrahmen noch wenig erforscht. Um diese Lücke zu schließen, stellen wir EmbodiedBench vor, einen umfangreichen Benchmark, der entwickelt wurde, um visionbasierte verkörperte Agenten zu bewerten. EmbodiedBench umfasst: (1) eine vielfältige Sammlung von 1.128 Testaufgaben in vier Umgebungen, die von hochrangigen semantischen Aufgaben (z.B. Haushalt) bis hin zu niederwertigen Aufgaben mit atomaren Aktionen (z.B. Navigation und Manipulation) reichen; und (2) sechs sorgfältig zusammengestellte Untermengen, die wesentliche Agentenfähigkeiten wie gesunden Menschenverstand, komplexe Anweisungsverständnis, räumliches Bewusstsein, visuelle Wahrnehmung und langfristige Planung bewerten. Durch umfangreiche Experimente haben wir 13 führende proprietäre und Open-Source MLLMs innerhalb von EmbodiedBench bewertet. Unsere Ergebnisse zeigen, dass MLLMs bei hochrangigen Aufgaben glänzen, aber Schwierigkeiten bei niederwertiger Manipulation haben, wobei das beste Modell, GPT-4o, nur durchschnittlich 28,9% erreicht. EmbodiedBench bietet eine vielschichtige standardisierte Bewertungsplattform, die nicht nur bestehende Herausforderungen aufzeigt, sondern auch wertvolle Einblicke zur Weiterentwicklung von MLLM-basierten verkörperten Agenten bietet. Unser Code ist unter https://embodiedbench.github.io verfügbar.
English
Leveraging Multi-modal Large Language Models (MLLMs) to create embodied
agents offers a promising avenue for tackling real-world tasks. While
language-centric embodied agents have garnered substantial attention,
MLLM-based embodied agents remain underexplored due to the lack of
comprehensive evaluation frameworks. To bridge this gap, we introduce
EmbodiedBench, an extensive benchmark designed to evaluate vision-driven
embodied agents. EmbodiedBench features: (1) a diverse set of 1,128 testing
tasks across four environments, ranging from high-level semantic tasks (e.g.,
household) to low-level tasks involving atomic actions (e.g., navigation and
manipulation); and (2) six meticulously curated subsets evaluating essential
agent capabilities like commonsense reasoning, complex instruction
understanding, spatial awareness, visual perception, and long-term planning.
Through extensive experiments, we evaluated 13 leading proprietary and
open-source MLLMs within EmbodiedBench. Our findings reveal that: MLLMs excel
at high-level tasks but struggle with low-level manipulation, with the best
model, GPT-4o, scoring only 28.9% on average. EmbodiedBench provides a
multifaceted standardized evaluation platform that not only highlights existing
challenges but also offers valuable insights to advance MLLM-based embodied
agents. Our code is available at https://embodiedbench.github.io.Summary
AI-Generated Summary