BiManiBench: 멀티모달 대규모 언어 모델의 양손 협응 능력 평가를 위한 계층적 벤치마크
BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language Models
February 9, 2026
저자: Xin Wu, Zhixuan Liang, Yue Ma, Mengkang Hu, Zhiyuan Qin, Xiu Li
cs.AI
초록
멀티모달 대규모 언어 모델(MLLMs)은 구현형 AI를 크게 발전시켰으며, 이를 로봇 지능의 벤치마크로 활용하는 것은 핵심적인 추세가 되었습니다. 그러나 기존 프레임워크는 주로 단일 암(single-arm) 조작에 국한되어 있어, 무거운 냄비 들어올리기와 같은 양손 작업에 필요한 시공간적 조정 능력을 평가하지 못합니다. 이를 해결하기 위해 우리는 세 가지 계층(기본 공간 추론, 고수준 행동 계획, 저수준 엔드 이펙터 제어)에 걸쳐 MLLMs를 평가하는 계층적 벤치마크인 BiManiBench를 소개합니다. 우리의 프레임워크는 암 도달 가능성(arm reachability) 및 운동학적 제약과 같은 고유한 양손 작업의 과제를 분리함으로써 지각 환각(perceptual hallucination)과 계획 실패를 구별합니다. 30개 이상의 최첨단 모델 분석 결과, 고수준 추론 능력이 뛰어남에도 불구하고 MLLMs는 양팔 공간 기반화(spatial grounding) 및 제어에 어려움을 겪으며, 이로 인해 상호 간섭과 순서 오류가 빈번히 발생하는 것으로 나타났습니다. 이러한 결과는 현재 패러다임이 팔 간의 상호 운동학적 제약에 대한 깊은 이해가 부족함을 시사하며, 향후 연구가 팔 간 충돌 회피 및 세분화된 시간적 순서 구성에 집중해야 할 필요성을 강조합니다.
English
Multimodal Large Language Models (MLLMs) have significantly advanced embodied AI, and using them to benchmark robotic intelligence has become a pivotal trend. However, existing frameworks remain predominantly confined to single-arm manipulation, failing to capture the spatio-temporal coordination required for bimanual tasks like lifting a heavy pot. To address this, we introduce BiManiBench, a hierarchical benchmark evaluating MLLMs across three tiers: fundamental spatial reasoning, high-level action planning, and low-level end-effector control. Our framework isolates unique bimanual challenges, such as arm reachability and kinematic constraints, thereby distinguishing perceptual hallucinations from planning failures. Analysis of over 30 state-of-the-art models reveals that despite high-level reasoning proficiency, MLLMs struggle with dual-arm spatial grounding and control, frequently resulting in mutual interference and sequencing errors. These findings suggest the current paradigm lacks a deep understanding of mutual kinematic constraints, highlighting the need for future research to focus on inter-arm collision-avoidance and fine-grained temporal sequencing.