EmbodiedEval : Évaluer les LLM multimodaux en tant qu'agents incarnés

Résumé

Les grands modèles de langage multimodaux (MLLM) ont montré des avancées significatives, offrant un avenir prometteur pour les agents incarnés. Les benchmarks existants pour évaluer les MLLM utilisent principalement des images statiques ou des vidéos, limitant les évaluations à des scénarios non interactifs. Pendant ce temps, les benchmarks d'IA incarnée existants sont spécifiques à des tâches et pas assez diversifiés, ce qui n'évalue pas adéquatement les capacités incarnées des MLLM. Pour remédier à cela, nous proposons EmbodiedEval, un benchmark d'évaluation complet et interactif pour les MLLM avec des tâches incarnées. EmbodiedEval propose 328 tâches distinctes dans 125 scènes 3D variées, chacune étant rigoureusement sélectionnée et annotée. Il couvre un large éventail de tâches d'IA incarnée existantes avec une diversité considérablement améliorée, le tout dans un cadre de simulation et d'évaluation unifié adapté aux MLLM. Les tâches sont organisées en cinq catégories : navigation, interaction avec des objets, interaction sociale, réponse à des questions sur les attributs et réponse à des questions spatiales pour évaluer différentes capacités des agents. Nous avons évalué les MLLM de pointe sur EmbodiedEval et constaté qu'ils présentent un déficit significatif par rapport au niveau humain sur les tâches incarnées. Notre analyse démontre les limites des MLLM existants en termes de capacités incarnées, fournissant des perspectives pour leur développement futur. Nous mettons à disposition en open source toutes les données d'évaluation et le cadre de simulation sur https://github.com/thunlp/EmbodiedEval.

English

Multimodal Large Language Models (MLLMs) have shown significant advancements, providing a promising future for embodied agents. Existing benchmarks for evaluating MLLMs primarily utilize static images or videos, limiting assessments to non-interactive scenarios. Meanwhile, existing embodied AI benchmarks are task-specific and not diverse enough, which do not adequately evaluate the embodied capabilities of MLLMs. To address this, we propose EmbodiedEval, a comprehensive and interactive evaluation benchmark for MLLMs with embodied tasks. EmbodiedEval features 328 distinct tasks within 125 varied 3D scenes, each of which is rigorously selected and annotated. It covers a broad spectrum of existing embodied AI tasks with significantly enhanced diversity, all within a unified simulation and evaluation framework tailored for MLLMs. The tasks are organized into five categories: navigation, object interaction, social interaction, attribute question answering, and spatial question answering to assess different capabilities of the agents. We evaluated the state-of-the-art MLLMs on EmbodiedEval and found that they have a significant shortfall compared to human level on embodied tasks. Our analysis demonstrates the limitations of existing MLLMs in embodied capabilities, providing insights for their future development. We open-source all evaluation data and simulation framework at https://github.com/thunlp/EmbodiedEval.