BEAR: Оценка и улучшение мультимодальных языковых моделей для атомарных воплощённых способностей
BEAR: Benchmarking and Enhancing Multimodal Language Models for Atomic Embodied Capabilities
October 9, 2025
Авторы: Yu Qi, Haibo Zhao, Ziyu Guo, Siyuan Ma, Ziyan Chen, Yaokun Han, Renrui Zhang, Zitiantao Lin, Shiji Xin, Yijian Huang, Kai Cheng, Peiheng Wang, Jiazheng Liu, Jiayi Zhang, Yizhe Zhu, Wenqing Wang, Yiran Qin, Xupeng Zhu, Haojie Huang, Lawson L. S. Wong
cs.AI
Аннотация
Воплощенные способности представляют собой набор фундаментальных умений, позволяющих агенту воспринимать, понимать и взаимодействовать с физическим миром. Хотя мультимодальные большие языковые модели (MLLM) демонстрируют потенциал в качестве воплощенных агентов, всесторонняя и систематическая оценка их воплощенных способностей остается недостаточно изученной, поскольку существующие бенчмарки в основном сосредоточены на узких областях, таких как планирование или пространственное понимание. Чтобы устранить этот пробел, мы представляем BEAR — всеобъемлющий и детализированный бенчмарк, который оценивает MLLM на основе атомарных воплощенных способностей. BEAR включает 4 469 чередующихся записей изображений, видео и текста в 14 областях, объединенных в 6 категорий, охватывающих задачи от низкоуровневого указания и понимания траекторий до пространственного мышления и высокоуровневого планирования. Результаты масштабной оценки 20 репрезентативных MLLM выявили их устойчивые ограничения во всех областях воплощенных способностей. Для устранения этих недостатков мы предлагаем BEAR-Agent — мультимодального агента, способного к диалогу, который интегрирует предобученные модели зрения для усиления восприятия, понимания 3D-пространства и планирования в MLLM. Это существенно улучшает производительность MLLM в различных воплощенных способностях на BEAR, обеспечивая абсолютный прирост на 9,12% и относительное улучшение на 17,5% для GPT-5. Кроме того, наши эксперименты показывают, что улучшение воплощенных способностей MLLM может способствовать выполнению задач в симулированных средах. Сайт проекта: https://bear-official66.github.io/
English
Embodied capabilities refer to a suite of fundamental abilities for an agent
to perceive, comprehend, and interact with the physical world. While multimodal
large language models (MLLMs) show promise as embodied agents, a thorough and
systematic evaluation of their embodied capabilities remains underexplored, as
existing benchmarks primarily focus on specific domains such as planning or
spatial understanding. To bridge this gap, we introduce BEAR, a comprehensive
and fine-grained benchmark that evaluates MLLMs on atomic embodied
capabilities. BEAR comprises 4,469 interleaved image-video-text entries across
14 domains in 6 categories, including tasks from low-level pointing, trajectory
understanding, spatial reasoning, to high-level planning. Extensive evaluation
results of 20 representative MLLMs reveal their persistent limitations across
all domains of embodied capabilities. To tackle the shortfall, we propose
BEAR-Agent, a multimodal conversable agent that integrates pretrained vision
models to strengthen MLLM perception, 3D understanding, and planning
capabilities. It substantially enhances MLLM performance across diverse
embodied capabilities on BEAR, yielding a 9.12% absolute gain and a relative
improvement of 17.5% on GPT-5. Furthermore, our experiments indicate that
improving MLLM embodied capabilities can benefit embodied tasks in simulated
environments. Project website: https://bear-official66.github.io/