ChatPaper.aiChatPaper

BEAR: 원자적 구현 능력을 위한 멀티모달 언어 모델의 벤치마킹 및 향상

BEAR: Benchmarking and Enhancing Multimodal Language Models for Atomic Embodied Capabilities

October 9, 2025
저자: Yu Qi, Haibo Zhao, Ziyu Guo, Siyuan Ma, Ziyan Chen, Yaokun Han, Renrui Zhang, Zitiantao Lin, Shiji Xin, Yijian Huang, Kai Cheng, Peiheng Wang, Jiazheng Liu, Jiayi Zhang, Yizhe Zhu, Wenqing Wang, Yiran Qin, Xupeng Zhu, Haojie Huang, Lawson L. S. Wong
cs.AI

초록

구체화된 능력(Embodied capabilities)은 에이전트가 물리적 세계를 지각하고, 이해하며, 상호작용하기 위한 일련의 기본 능력을 의미합니다. 다중 모드 대형 언어 모델(MLLMs)이 구체화된 에이전트로서의 잠재력을 보여주고 있지만, 기존 벤치마크가 주로 계획이나 공간 이해와 같은 특정 도메인에 초점을 맞추고 있어, 이들의 구체화된 능력에 대한 철저하고 체계적인 평가는 아직 미흡한 상태입니다. 이러한 격차를 해소하기 위해, 우리는 MLLMs의 원자적 구체화 능력을 평가하는 포괄적이고 세분화된 벤치마크인 BEAR를 소개합니다. BEAR는 6개 범주에 걸쳐 14개 도메인에서 4,469개의 이미지-비디오-텍스트 항목으로 구성되어 있으며, 저수준의 포인팅, 궤적 이해, 공간 추론부터 고수준의 계획에 이르는 다양한 과제를 포함합니다. 20개의 대표적인 MLLMs에 대한 광범위한 평가 결과는 모든 구체화 능력 도메인에서 이들의 지속적인 한계를 드러냈습니다. 이러한 부족함을 해결하기 위해, 우리는 사전 훈련된 비전 모델을 통합하여 MLLM의 지각, 3D 이해, 계획 능력을 강화한 다중 모드 대화형 에이전트인 BEAR-Agent를 제안합니다. 이는 BEAR에서 다양한 구체화 능력에 걸쳐 MLLM 성능을 크게 향상시키며, GPT-5 기준으로 9.12%의 절대적 이득과 17.5%의 상대적 개선을 달성했습니다. 또한, 우리의 실험은 MLLM의 구체화 능력 개선이 시뮬레이션 환경에서의 구체화 작업에 도움이 될 수 있음을 보여줍니다. 프로젝트 웹사이트: https://bear-official66.github.io/
English
Embodied capabilities refer to a suite of fundamental abilities for an agent to perceive, comprehend, and interact with the physical world. While multimodal large language models (MLLMs) show promise as embodied agents, a thorough and systematic evaluation of their embodied capabilities remains underexplored, as existing benchmarks primarily focus on specific domains such as planning or spatial understanding. To bridge this gap, we introduce BEAR, a comprehensive and fine-grained benchmark that evaluates MLLMs on atomic embodied capabilities. BEAR comprises 4,469 interleaved image-video-text entries across 14 domains in 6 categories, including tasks from low-level pointing, trajectory understanding, spatial reasoning, to high-level planning. Extensive evaluation results of 20 representative MLLMs reveal their persistent limitations across all domains of embodied capabilities. To tackle the shortfall, we propose BEAR-Agent, a multimodal conversable agent that integrates pretrained vision models to strengthen MLLM perception, 3D understanding, and planning capabilities. It substantially enhances MLLM performance across diverse embodied capabilities on BEAR, yielding a 9.12% absolute gain and a relative improvement of 17.5% on GPT-5. Furthermore, our experiments indicate that improving MLLM embodied capabilities can benefit embodied tasks in simulated environments. Project website: https://bear-official66.github.io/
PDF442October 13, 2025