EmbodiedBench: Benchmarking completo dei modelli linguistici multimodali di grandi dimensioni per agenti incorporati guidati dalla visione

Abstract

Sfruttare i Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs) per creare agenti incorporati offre una via promettente per affrontare compiti del mondo reale. Mentre gli agenti incorporati centrati sul linguaggio hanno attirato notevole attenzione, gli agenti incorporati basati su MLLMs rimangono poco esplorati a causa della mancanza di quadri di valutazione completi. Per colmare questa lacuna, presentiamo EmbodiedBench, un ampio benchmark progettato per valutare agenti incorporati guidati dalla visione. EmbodiedBench presenta: (1) un insieme diversificato di 1.128 compiti di test in quattro ambienti, che vanno da compiti semantici di alto livello (ad esempio, domestici) a compiti di basso livello che coinvolgono azioni atomiche (ad esempio, navigazione e manipolazione); e (2) sei sottoinsiemi accuratamente curati che valutano capacità essenziali dell'agente come il ragionamento di senso comune, la comprensione di istruzioni complesse, la consapevolezza spaziale, la percezione visiva e la pianificazione a lungo termine. Attraverso ampi esperimenti, abbiamo valutato 13 principali MLLMs proprietari e open-source all'interno di EmbodiedBench. Le nostre scoperte rivelano che: i MLLMs eccellono nei compiti di alto livello ma faticano con la manipolazione di basso livello, con il miglior modello, GPT-4o, ottenendo solo il 28,9% in media. EmbodiedBench fornisce una piattaforma di valutazione standardizzata multifunzionale che non solo mette in luce le sfide esistenti, ma offre anche preziose intuizioni per far progredire gli agenti incorporati basati su MLLM. Il nostro codice è disponibile su https://embodiedbench.github.io.

English

Leveraging Multi-modal Large Language Models (MLLMs) to create embodied agents offers a promising avenue for tackling real-world tasks. While language-centric embodied agents have garnered substantial attention, MLLM-based embodied agents remain underexplored due to the lack of comprehensive evaluation frameworks. To bridge this gap, we introduce EmbodiedBench, an extensive benchmark designed to evaluate vision-driven embodied agents. EmbodiedBench features: (1) a diverse set of 1,128 testing tasks across four environments, ranging from high-level semantic tasks (e.g., household) to low-level tasks involving atomic actions (e.g., navigation and manipulation); and (2) six meticulously curated subsets evaluating essential agent capabilities like commonsense reasoning, complex instruction understanding, spatial awareness, visual perception, and long-term planning. Through extensive experiments, we evaluated 13 leading proprietary and open-source MLLMs within EmbodiedBench. Our findings reveal that: MLLMs excel at high-level tasks but struggle with low-level manipulation, with the best model, GPT-4o, scoring only 28.9% on average. EmbodiedBench provides a multifaceted standardized evaluation platform that not only highlights existing challenges but also offers valuable insights to advance MLLM-based embodied agents. Our code is available at https://embodiedbench.github.io.

EmbodiedBench: Benchmarking completo dei modelli linguistici multimodali di grandi dimensioni per agenti incorporati guidati dalla visione

EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents

Abstract

Support