EmbodiedBench: Benchmarking completo dei modelli linguistici multimodali di grandi dimensioni per agenti incorporati guidati dalla visione
EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents
February 13, 2025
Autori: Rui Yang, Hanyang Chen, Junyu Zhang, Mark Zhao, Cheng Qian, Kangrui Wang, Qineng Wang, Teja Venkat Koripella, Marziyeh Movahedi, Manling Li, Heng Ji, Huan Zhang, Tong Zhang
cs.AI
Abstract
Sfruttare i Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs) per creare agenti incorporati offre una via promettente per affrontare compiti del mondo reale. Mentre gli agenti incorporati centrati sul linguaggio hanno attirato notevole attenzione, gli agenti incorporati basati su MLLMs rimangono poco esplorati a causa della mancanza di quadri di valutazione completi. Per colmare questa lacuna, presentiamo EmbodiedBench, un ampio benchmark progettato per valutare agenti incorporati guidati dalla visione. EmbodiedBench presenta: (1) un insieme diversificato di 1.128 compiti di test in quattro ambienti, che vanno da compiti semantici di alto livello (ad esempio, domestici) a compiti di basso livello che coinvolgono azioni atomiche (ad esempio, navigazione e manipolazione); e (2) sei sottoinsiemi accuratamente curati che valutano capacità essenziali dell'agente come il ragionamento di senso comune, la comprensione di istruzioni complesse, la consapevolezza spaziale, la percezione visiva e la pianificazione a lungo termine. Attraverso ampi esperimenti, abbiamo valutato 13 principali MLLMs proprietari e open-source all'interno di EmbodiedBench. Le nostre scoperte rivelano che: i MLLMs eccellono nei compiti di alto livello ma faticano con la manipolazione di basso livello, con il miglior modello, GPT-4o, ottenendo solo il 28,9% in media. EmbodiedBench fornisce una piattaforma di valutazione standardizzata multifunzionale che non solo mette in luce le sfide esistenti, ma offre anche preziose intuizioni per far progredire gli agenti incorporati basati su MLLM. Il nostro codice è disponibile su https://embodiedbench.github.io.
English
Leveraging Multi-modal Large Language Models (MLLMs) to create embodied
agents offers a promising avenue for tackling real-world tasks. While
language-centric embodied agents have garnered substantial attention,
MLLM-based embodied agents remain underexplored due to the lack of
comprehensive evaluation frameworks. To bridge this gap, we introduce
EmbodiedBench, an extensive benchmark designed to evaluate vision-driven
embodied agents. EmbodiedBench features: (1) a diverse set of 1,128 testing
tasks across four environments, ranging from high-level semantic tasks (e.g.,
household) to low-level tasks involving atomic actions (e.g., navigation and
manipulation); and (2) six meticulously curated subsets evaluating essential
agent capabilities like commonsense reasoning, complex instruction
understanding, spatial awareness, visual perception, and long-term planning.
Through extensive experiments, we evaluated 13 leading proprietary and
open-source MLLMs within EmbodiedBench. Our findings reveal that: MLLMs excel
at high-level tasks but struggle with low-level manipulation, with the best
model, GPT-4o, scoring only 28.9% on average. EmbodiedBench provides a
multifaceted standardized evaluation platform that not only highlights existing
challenges but also offers valuable insights to advance MLLM-based embodied
agents. Our code is available at https://embodiedbench.github.io.Summary
AI-Generated Summary