BEAR: アトミックな身体能力のためのマルチモーダル言語モデルのベンチマーキングと強化
BEAR: Benchmarking and Enhancing Multimodal Language Models for Atomic Embodied Capabilities
October 9, 2025
著者: Yu Qi, Haibo Zhao, Ziyu Guo, Siyuan Ma, Ziyan Chen, Yaokun Han, Renrui Zhang, Zitiantao Lin, Shiji Xin, Yijian Huang, Kai Cheng, Peiheng Wang, Jiazheng Liu, Jiayi Zhang, Yizhe Zhu, Wenqing Wang, Yiran Qin, Xupeng Zhu, Haojie Huang, Lawson L. S. Wong
cs.AI
要旨
具現化能力とは、エージェントが物理世界を認識し、理解し、相互作用するための一連の基本的な能力を指す。マルチモーダル大規模言語モデル(MLLMs)は具現化エージェントとしての可能性を示しているが、その具現化能力に対する体系的かつ徹底的な評価は未だ十分に検討されていない。既存のベンチマークは主に計画立案や空間理解などの特定の領域に焦点を当てている。このギャップを埋めるため、我々はBEARを導入する。BEARは、MLLMsの原子的な具現化能力を評価する包括的かつ細粒度のベンチマークであり、6つのカテゴリーにわたる14の領域で4,469の画像-動画-テキストのエントリを含む。これには、低レベルのポインティング、軌道理解、空間推論から高レベルの計画立案に至るタスクが含まれる。20の代表的なMLLMsに対する広範な評価結果は、すべての具現化能力の領域において持続的な限界を明らかにしている。この不足を補うため、我々はBEAR-Agentを提案する。これは、事前学習済みの視覚モデルを統合し、MLLMの知覚、3D理解、計画立案能力を強化するマルチモーダル対話型エージェントである。BEARにおいて、多様な具現化能力にわたるMLLMの性能を大幅に向上させ、GPT-5に対して9.12%の絶対的な向上と17.5%の相対的な改善をもたらす。さらに、我々の実験は、MLLMの具現化能力を向上させることがシミュレーション環境における具現化タスクに有益であることを示している。プロジェクトウェブサイト: https://bear-official66.github.io/
English
Embodied capabilities refer to a suite of fundamental abilities for an agent
to perceive, comprehend, and interact with the physical world. While multimodal
large language models (MLLMs) show promise as embodied agents, a thorough and
systematic evaluation of their embodied capabilities remains underexplored, as
existing benchmarks primarily focus on specific domains such as planning or
spatial understanding. To bridge this gap, we introduce BEAR, a comprehensive
and fine-grained benchmark that evaluates MLLMs on atomic embodied
capabilities. BEAR comprises 4,469 interleaved image-video-text entries across
14 domains in 6 categories, including tasks from low-level pointing, trajectory
understanding, spatial reasoning, to high-level planning. Extensive evaluation
results of 20 representative MLLMs reveal their persistent limitations across
all domains of embodied capabilities. To tackle the shortfall, we propose
BEAR-Agent, a multimodal conversable agent that integrates pretrained vision
models to strengthen MLLM perception, 3D understanding, and planning
capabilities. It substantially enhances MLLM performance across diverse
embodied capabilities on BEAR, yielding a 9.12% absolute gain and a relative
improvement of 17.5% on GPT-5. Furthermore, our experiments indicate that
improving MLLM embodied capabilities can benefit embodied tasks in simulated
environments. Project website: https://bear-official66.github.io/