ChatPaper.aiChatPaper

EmbodiedEval:多様なモーダルLLMを具現化エージェントとして評価する

EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents

January 21, 2025
著者: Zhili Cheng, Yuge Tu, Ran Li, Shiqi Dai, Jinyi Hu, Shengding Hu, Jiahao Li, Yang Shi, Tianyu Yu, Weize Chen, Lei Shi, Maosong Sun
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLMs)は、具体的な進歩を示し、具体的なエージェントにとって有望な未来を提供しています。MLLMsを評価するための既存のベンチマークは、主に静止画像や動画を利用しており、非対話的なシナリオに制限されています。一方、既存の具体的なAIベンチマークは、タスク固有であり、十分に多様ではないため、MLLMsの具体的な能力を適切に評価していません。この課題に対処するために、私たちはMLLMs向けの包括的でインタラクティブな評価ベンチマークであるEmbodiedEvalを提案します。EmbodiedEvalには、125の異なる3Dシーン内で328の異なるタスクが特徴付けられ、厳密に選択されアノテーションが付けられています。これは、既存の具体的なAIタスクの幅広いスペクトラムをカバーし、大幅に向上した多様性を持ち、MLLMs向けに調整された統一されたシミュレーションおよび評価フレームワーク内で提供されています。これらのタスクは、ナビゲーション、オブジェクトの相互作用、ソーシャルインタラクション、属性に関する質問応答、および空間に関する質問応答の5つのカテゴリに整理され、エージェントの異なる能力を評価します。私たちはEmbodiedEvalで最先端のMLLMsを評価し、それらが具体的なタスクにおいて人間レベルと比較して著しい不足があることを発見しました。私たちの分析は、既存のMLLMsの具体的な能力の制限を示し、将来の開発に向けた示唆を提供しています。評価データとシミュレーションフレームワークは、https://github.com/thunlp/EmbodiedEval でオープンソースとして公開しています。
English
Multimodal Large Language Models (MLLMs) have shown significant advancements, providing a promising future for embodied agents. Existing benchmarks for evaluating MLLMs primarily utilize static images or videos, limiting assessments to non-interactive scenarios. Meanwhile, existing embodied AI benchmarks are task-specific and not diverse enough, which do not adequately evaluate the embodied capabilities of MLLMs. To address this, we propose EmbodiedEval, a comprehensive and interactive evaluation benchmark for MLLMs with embodied tasks. EmbodiedEval features 328 distinct tasks within 125 varied 3D scenes, each of which is rigorously selected and annotated. It covers a broad spectrum of existing embodied AI tasks with significantly enhanced diversity, all within a unified simulation and evaluation framework tailored for MLLMs. The tasks are organized into five categories: navigation, object interaction, social interaction, attribute question answering, and spatial question answering to assess different capabilities of the agents. We evaluated the state-of-the-art MLLMs on EmbodiedEval and found that they have a significant shortfall compared to human level on embodied tasks. Our analysis demonstrates the limitations of existing MLLMs in embodied capabilities, providing insights for their future development. We open-source all evaluation data and simulation framework at https://github.com/thunlp/EmbodiedEval.

Summary

AI-Generated Summary

PDF72January 25, 2025