ChatPaper.aiChatPaper

EmbodiedEval: Bewertung von Multimodalen Sprachmodellen als verkörperte Agenten

EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents

January 21, 2025
Autoren: Zhili Cheng, Yuge Tu, Ran Li, Shiqi Dai, Jinyi Hu, Shengding Hu, Jiahao Li, Yang Shi, Tianyu Yu, Weize Chen, Lei Shi, Maosong Sun
cs.AI

Zusammenfassung

Multimodale Große Sprachmodelle (MLLMs) haben signifikante Fortschritte gezeigt und bieten eine vielversprechende Zukunft für verkörperte Agenten. Bestehende Benchmarks zur Bewertung von MLLMs nutzen hauptsächlich statische Bilder oder Videos, was die Bewertung auf nicht-interaktive Szenarien beschränkt. Gleichzeitig sind bestehende verkörperte KI-Benchmarks aufgabenspezifisch und nicht vielfältig genug, um die verkörperten Fähigkeiten von MLLMs angemessen zu bewerten. Um dies zu lösen, schlagen wir EmbodiedEval vor, einen umfassenden und interaktiven Bewertungsbenchmark für MLLMs mit verkörperten Aufgaben. EmbodiedEval umfasst 328 verschiedene Aufgaben in 125 verschiedenen 3D-Szenen, die sorgfältig ausgewählt und annotiert wurden. Es deckt ein breites Spektrum bestehender verkörperter KI-Aufgaben mit erheblich verbesserter Vielfalt ab, alles innerhalb eines einheitlichen Simulations- und Bewertungsrahmens, der speziell für MLLMs entwickelt wurde. Die Aufgaben sind in fünf Kategorien organisiert: Navigation, Objektinteraktion, soziale Interaktion, Attribut-Fragenbeantwortung und räumliche Fragenbeantwortung, um verschiedene Fähigkeiten der Agenten zu bewerten. Wir haben die modernsten MLLMs auf EmbodiedEval evaluiert und festgestellt, dass sie im Vergleich zum menschlichen Niveau erhebliche Defizite bei verkörperten Aufgaben aufweisen. Unsere Analyse zeigt die Grenzen bestehender MLLMs in verkörperten Fähigkeiten auf und bietet Einblicke für ihre zukünftige Entwicklung. Wir stellen alle Bewertungsdaten und das Simulationsframework unter https://github.com/thunlp/EmbodiedEval als Open Source zur Verfügung.
English
Multimodal Large Language Models (MLLMs) have shown significant advancements, providing a promising future for embodied agents. Existing benchmarks for evaluating MLLMs primarily utilize static images or videos, limiting assessments to non-interactive scenarios. Meanwhile, existing embodied AI benchmarks are task-specific and not diverse enough, which do not adequately evaluate the embodied capabilities of MLLMs. To address this, we propose EmbodiedEval, a comprehensive and interactive evaluation benchmark for MLLMs with embodied tasks. EmbodiedEval features 328 distinct tasks within 125 varied 3D scenes, each of which is rigorously selected and annotated. It covers a broad spectrum of existing embodied AI tasks with significantly enhanced diversity, all within a unified simulation and evaluation framework tailored for MLLMs. The tasks are organized into five categories: navigation, object interaction, social interaction, attribute question answering, and spatial question answering to assess different capabilities of the agents. We evaluated the state-of-the-art MLLMs on EmbodiedEval and found that they have a significant shortfall compared to human level on embodied tasks. Our analysis demonstrates the limitations of existing MLLMs in embodied capabilities, providing insights for their future development. We open-source all evaluation data and simulation framework at https://github.com/thunlp/EmbodiedEval.

Summary

AI-Generated Summary

PDF72January 25, 2025