EmbodiedEval: Bewertung von Multimodalen Sprachmodellen als verkörperte Agenten
EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents
January 21, 2025
Autoren: Zhili Cheng, Yuge Tu, Ran Li, Shiqi Dai, Jinyi Hu, Shengding Hu, Jiahao Li, Yang Shi, Tianyu Yu, Weize Chen, Lei Shi, Maosong Sun
cs.AI
Zusammenfassung
Multimodale Große Sprachmodelle (MLLMs) haben signifikante Fortschritte gezeigt und bieten eine vielversprechende Zukunft für verkörperte Agenten. Bestehende Benchmarks zur Bewertung von MLLMs nutzen hauptsächlich statische Bilder oder Videos, was die Bewertung auf nicht-interaktive Szenarien beschränkt. Gleichzeitig sind bestehende verkörperte KI-Benchmarks aufgabenspezifisch und nicht vielfältig genug, um die verkörperten Fähigkeiten von MLLMs angemessen zu bewerten. Um dies zu lösen, schlagen wir EmbodiedEval vor, einen umfassenden und interaktiven Bewertungsbenchmark für MLLMs mit verkörperten Aufgaben. EmbodiedEval umfasst 328 verschiedene Aufgaben in 125 verschiedenen 3D-Szenen, die sorgfältig ausgewählt und annotiert wurden. Es deckt ein breites Spektrum bestehender verkörperter KI-Aufgaben mit erheblich verbesserter Vielfalt ab, alles innerhalb eines einheitlichen Simulations- und Bewertungsrahmens, der speziell für MLLMs entwickelt wurde. Die Aufgaben sind in fünf Kategorien organisiert: Navigation, Objektinteraktion, soziale Interaktion, Attribut-Fragenbeantwortung und räumliche Fragenbeantwortung, um verschiedene Fähigkeiten der Agenten zu bewerten. Wir haben die modernsten MLLMs auf EmbodiedEval evaluiert und festgestellt, dass sie im Vergleich zum menschlichen Niveau erhebliche Defizite bei verkörperten Aufgaben aufweisen. Unsere Analyse zeigt die Grenzen bestehender MLLMs in verkörperten Fähigkeiten auf und bietet Einblicke für ihre zukünftige Entwicklung. Wir stellen alle Bewertungsdaten und das Simulationsframework unter https://github.com/thunlp/EmbodiedEval als Open Source zur Verfügung.
English
Multimodal Large Language Models (MLLMs) have shown significant advancements,
providing a promising future for embodied agents. Existing benchmarks for
evaluating MLLMs primarily utilize static images or videos, limiting
assessments to non-interactive scenarios. Meanwhile, existing embodied AI
benchmarks are task-specific and not diverse enough, which do not adequately
evaluate the embodied capabilities of MLLMs. To address this, we propose
EmbodiedEval, a comprehensive and interactive evaluation benchmark for MLLMs
with embodied tasks. EmbodiedEval features 328 distinct tasks within 125 varied
3D scenes, each of which is rigorously selected and annotated. It covers a
broad spectrum of existing embodied AI tasks with significantly enhanced
diversity, all within a unified simulation and evaluation framework tailored
for MLLMs. The tasks are organized into five categories: navigation, object
interaction, social interaction, attribute question answering, and spatial
question answering to assess different capabilities of the agents. We evaluated
the state-of-the-art MLLMs on EmbodiedEval and found that they have a
significant shortfall compared to human level on embodied tasks. Our analysis
demonstrates the limitations of existing MLLMs in embodied capabilities,
providing insights for their future development. We open-source all evaluation
data and simulation framework at https://github.com/thunlp/EmbodiedEval.Summary
AI-Generated Summary