ChatPaper.aiChatPaper

EmbodiedEval: Valutare i Modelli Linguistici Multimodali come Agenti Incarnati

EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents

January 21, 2025
Autori: Zhili Cheng, Yuge Tu, Ran Li, Shiqi Dai, Jinyi Hu, Shengding Hu, Jiahao Li, Yang Shi, Tianyu Yu, Weize Chen, Lei Shi, Maosong Sun
cs.AI

Abstract

I Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) hanno mostrato significativi progressi, offrendo un futuro promettente per gli agenti incorporati. I benchmark esistenti per valutare i MLLM utilizzano principalmente immagini statiche o video, limitando le valutazioni a scenari non interattivi. Nel frattempo, i benchmark esistenti sull'IA incorporata sono specifici per compiti e non sufficientemente diversificati, non valutando adeguatamente le capacità incorporate dei MLLM. Per affrontare questo problema, proponiamo EmbodiedEval, un benchmark di valutazione completo e interattivo per i MLLM con compiti incorporati. EmbodiedEval include 328 compiti distinti all'interno di 125 scene 3D varie, ognuna delle quali è selezionata e annotata rigorosamente. Copre un ampio spettro di compiti esistenti sull'IA incorporata con una diversità significativamente migliorata, il tutto all'interno di un framework unificato di simulazione e valutazione adattato per i MLLM. I compiti sono organizzati in cinque categorie: navigazione, interazione con gli oggetti, interazione sociale, risposta a domande sull'attributo e risposta a domande spaziali per valutare diverse capacità degli agenti. Abbiamo valutato i MLLM all'avanguardia su EmbodiedEval e abbiamo scoperto che presentano un significativo deficit rispetto al livello umano nei compiti incorporati. La nostra analisi dimostra i limiti dei MLLM esistenti nelle capacità incorporate, offrendo spunti per il loro futuro sviluppo. Mettiamo a disposizione tutti i dati di valutazione e il framework di simulazione su https://github.com/thunlp/EmbodiedEval.
English
Multimodal Large Language Models (MLLMs) have shown significant advancements, providing a promising future for embodied agents. Existing benchmarks for evaluating MLLMs primarily utilize static images or videos, limiting assessments to non-interactive scenarios. Meanwhile, existing embodied AI benchmarks are task-specific and not diverse enough, which do not adequately evaluate the embodied capabilities of MLLMs. To address this, we propose EmbodiedEval, a comprehensive and interactive evaluation benchmark for MLLMs with embodied tasks. EmbodiedEval features 328 distinct tasks within 125 varied 3D scenes, each of which is rigorously selected and annotated. It covers a broad spectrum of existing embodied AI tasks with significantly enhanced diversity, all within a unified simulation and evaluation framework tailored for MLLMs. The tasks are organized into five categories: navigation, object interaction, social interaction, attribute question answering, and spatial question answering to assess different capabilities of the agents. We evaluated the state-of-the-art MLLMs on EmbodiedEval and found that they have a significant shortfall compared to human level on embodied tasks. Our analysis demonstrates the limitations of existing MLLMs in embodied capabilities, providing insights for their future development. We open-source all evaluation data and simulation framework at https://github.com/thunlp/EmbodiedEval.

Summary

AI-Generated Summary

PDF72January 25, 2025