EmbodiedEval : Évaluer les LLM multimodaux en tant qu'agents incarnés
EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents
January 21, 2025
Auteurs: Zhili Cheng, Yuge Tu, Ran Li, Shiqi Dai, Jinyi Hu, Shengding Hu, Jiahao Li, Yang Shi, Tianyu Yu, Weize Chen, Lei Shi, Maosong Sun
cs.AI
Résumé
Les grands modèles de langage multimodaux (MLLM) ont montré des avancées significatives, offrant un avenir prometteur pour les agents incarnés. Les benchmarks existants pour évaluer les MLLM utilisent principalement des images statiques ou des vidéos, limitant les évaluations à des scénarios non interactifs. Pendant ce temps, les benchmarks d'IA incarnée existants sont spécifiques à des tâches et pas assez diversifiés, ce qui n'évalue pas adéquatement les capacités incarnées des MLLM. Pour remédier à cela, nous proposons EmbodiedEval, un benchmark d'évaluation complet et interactif pour les MLLM avec des tâches incarnées. EmbodiedEval propose 328 tâches distinctes dans 125 scènes 3D variées, chacune étant rigoureusement sélectionnée et annotée. Il couvre un large éventail de tâches d'IA incarnée existantes avec une diversité considérablement améliorée, le tout dans un cadre de simulation et d'évaluation unifié adapté aux MLLM. Les tâches sont organisées en cinq catégories : navigation, interaction avec des objets, interaction sociale, réponse à des questions sur les attributs et réponse à des questions spatiales pour évaluer différentes capacités des agents. Nous avons évalué les MLLM de pointe sur EmbodiedEval et constaté qu'ils présentent un déficit significatif par rapport au niveau humain sur les tâches incarnées. Notre analyse démontre les limites des MLLM existants en termes de capacités incarnées, fournissant des perspectives pour leur développement futur. Nous mettons à disposition en open source toutes les données d'évaluation et le cadre de simulation sur https://github.com/thunlp/EmbodiedEval.
English
Multimodal Large Language Models (MLLMs) have shown significant advancements,
providing a promising future for embodied agents. Existing benchmarks for
evaluating MLLMs primarily utilize static images or videos, limiting
assessments to non-interactive scenarios. Meanwhile, existing embodied AI
benchmarks are task-specific and not diverse enough, which do not adequately
evaluate the embodied capabilities of MLLMs. To address this, we propose
EmbodiedEval, a comprehensive and interactive evaluation benchmark for MLLMs
with embodied tasks. EmbodiedEval features 328 distinct tasks within 125 varied
3D scenes, each of which is rigorously selected and annotated. It covers a
broad spectrum of existing embodied AI tasks with significantly enhanced
diversity, all within a unified simulation and evaluation framework tailored
for MLLMs. The tasks are organized into five categories: navigation, object
interaction, social interaction, attribute question answering, and spatial
question answering to assess different capabilities of the agents. We evaluated
the state-of-the-art MLLMs on EmbodiedEval and found that they have a
significant shortfall compared to human level on embodied tasks. Our analysis
demonstrates the limitations of existing MLLMs in embodied capabilities,
providing insights for their future development. We open-source all evaluation
data and simulation framework at https://github.com/thunlp/EmbodiedEval.Summary
AI-Generated Summary