ChatPaper.aiChatPaper

BEAR: Оценка и улучшение мультимодальных языковых моделей для атомарных воплощённых способностей

BEAR: Benchmarking and Enhancing Multimodal Language Models for Atomic Embodied Capabilities

October 9, 2025
Авторы: Yu Qi, Haibo Zhao, Ziyu Guo, Siyuan Ma, Ziyan Chen, Yaokun Han, Renrui Zhang, Zitiantao Lin, Shiji Xin, Yijian Huang, Kai Cheng, Peiheng Wang, Jiazheng Liu, Jiayi Zhang, Yizhe Zhu, Wenqing Wang, Yiran Qin, Xupeng Zhu, Haojie Huang, Lawson L. S. Wong
cs.AI

Аннотация

Воплощенные способности представляют собой набор фундаментальных умений, позволяющих агенту воспринимать, понимать и взаимодействовать с физическим миром. Хотя мультимодальные большие языковые модели (MLLM) демонстрируют потенциал в качестве воплощенных агентов, всесторонняя и систематическая оценка их воплощенных способностей остается недостаточно изученной, поскольку существующие бенчмарки в основном сосредоточены на узких областях, таких как планирование или пространственное понимание. Чтобы устранить этот пробел, мы представляем BEAR — всеобъемлющий и детализированный бенчмарк, который оценивает MLLM на основе атомарных воплощенных способностей. BEAR включает 4 469 чередующихся записей изображений, видео и текста в 14 областях, объединенных в 6 категорий, охватывающих задачи от низкоуровневого указания и понимания траекторий до пространственного мышления и высокоуровневого планирования. Результаты масштабной оценки 20 репрезентативных MLLM выявили их устойчивые ограничения во всех областях воплощенных способностей. Для устранения этих недостатков мы предлагаем BEAR-Agent — мультимодального агента, способного к диалогу, который интегрирует предобученные модели зрения для усиления восприятия, понимания 3D-пространства и планирования в MLLM. Это существенно улучшает производительность MLLM в различных воплощенных способностях на BEAR, обеспечивая абсолютный прирост на 9,12% и относительное улучшение на 17,5% для GPT-5. Кроме того, наши эксперименты показывают, что улучшение воплощенных способностей MLLM может способствовать выполнению задач в симулированных средах. Сайт проекта: https://bear-official66.github.io/
English
Embodied capabilities refer to a suite of fundamental abilities for an agent to perceive, comprehend, and interact with the physical world. While multimodal large language models (MLLMs) show promise as embodied agents, a thorough and systematic evaluation of their embodied capabilities remains underexplored, as existing benchmarks primarily focus on specific domains such as planning or spatial understanding. To bridge this gap, we introduce BEAR, a comprehensive and fine-grained benchmark that evaluates MLLMs on atomic embodied capabilities. BEAR comprises 4,469 interleaved image-video-text entries across 14 domains in 6 categories, including tasks from low-level pointing, trajectory understanding, spatial reasoning, to high-level planning. Extensive evaluation results of 20 representative MLLMs reveal their persistent limitations across all domains of embodied capabilities. To tackle the shortfall, we propose BEAR-Agent, a multimodal conversable agent that integrates pretrained vision models to strengthen MLLM perception, 3D understanding, and planning capabilities. It substantially enhances MLLM performance across diverse embodied capabilities on BEAR, yielding a 9.12% absolute gain and a relative improvement of 17.5% on GPT-5. Furthermore, our experiments indicate that improving MLLM embodied capabilities can benefit embodied tasks in simulated environments. Project website: https://bear-official66.github.io/
PDF442October 13, 2025