EmbodiedEval: Оценка мультимодальных LLM в качестве воплощенных агентов

Аннотация

Многомодельные модели на больших языковых корпусах (MLLM) продемонстрировали значительные прорывы, обещая перспективное будущее для инкорпорированных агентов. Существующие бенчмарки для оценки MLLM в основном используют статические изображения или видео, что ограничивает оценку невзаимодействующими сценариями. Тем временем существующие бенчмарки для инкорпорированных ИИ ориентированы на конкретные задачи и недостаточно разнообразны, что не позволяет должным образом оценить инкорпорированные возможности MLLM. Для решения этой проблемы мы предлагаем EmbodiedEval - всесторонний и интерактивный бенчмарк для оценки MLLM с инкорпорированными задачами. EmbodiedEval включает 328 различных задач в 125 разнообразных трехмерных сценах, каждая из которых тщательно отобрана и аннотирована. Он охватывает широкий спектр существующих задач инкорпорированного ИИ с значительно улучшенным разнообразием, все в рамках унифицированной симуляционной и оценочной среды, разработанной специально для MLLM. Задачи организованы в пять категорий: навигация, взаимодействие с объектами, социальное взаимодействие, ответы на вопросы о признаках и пространственные вопросы для оценки различных возможностей агентов. Мы оценили современные MLLM на EmbodiedEval и обнаружили, что они значительно уступают уровню человека в инкорпорированных задачах. Наш анализ показывает ограничения существующих MLLM в инкорпорированных возможностях, предоставляя идеи для их будущего развития. Мы предоставляем все данные оценки и симуляционную среду в открытом доступе на https://github.com/thunlp/EmbodiedEval.

English

Multimodal Large Language Models (MLLMs) have shown significant advancements, providing a promising future for embodied agents. Existing benchmarks for evaluating MLLMs primarily utilize static images or videos, limiting assessments to non-interactive scenarios. Meanwhile, existing embodied AI benchmarks are task-specific and not diverse enough, which do not adequately evaluate the embodied capabilities of MLLMs. To address this, we propose EmbodiedEval, a comprehensive and interactive evaluation benchmark for MLLMs with embodied tasks. EmbodiedEval features 328 distinct tasks within 125 varied 3D scenes, each of which is rigorously selected and annotated. It covers a broad spectrum of existing embodied AI tasks with significantly enhanced diversity, all within a unified simulation and evaluation framework tailored for MLLMs. The tasks are organized into five categories: navigation, object interaction, social interaction, attribute question answering, and spatial question answering to assess different capabilities of the agents. We evaluated the state-of-the-art MLLMs on EmbodiedEval and found that they have a significant shortfall compared to human level on embodied tasks. Our analysis demonstrates the limitations of existing MLLMs in embodied capabilities, providing insights for their future development. We open-source all evaluation data and simulation framework at https://github.com/thunlp/EmbodiedEval.