BiManiBench: Een Hiërarchische Benchmark voor het Evalueren van Bimanuele Coördinatie van Multimodale Large Language Models

Samenvatting

Multimodale Large Language Models (MLLM's) hebben een significante vooruitgang geboekt in 'embodied AI', en het gebruik ervan om robotintelligentie te benchmarken is een cruciale trend geworden. Bestaande kaders zijn echter overwegend beperkt tot manipulatie met één arm, waardoor ze de ruimtelijk-temporele coördinatie die nodig is voor bimanuele taken, zoals het optillen van een zware pan, niet vastleggen. Om dit aan te pakken, introduceren wij BiManiBench, een hiërarchische benchmark die MLLM's evalueert op drie niveaus: fundamenteel ruimtelijk redeneren, hoog-niveau actieplanning en laag-niveau eind-effectorcontrole. Ons kader isoleert unieke bimanuele uitdagingen, zoals de reikwijdte van de arm en kinematische beperkingen, en onderscheidt zo perceptuele hallucinaties van planningsfouten. Analyse van meer dan 30 state-of-the-art modellen toont aan dat MLLM's, ondanks hun vaardigheid in hoog-niveau redeneren, moeite hebben met ruimtelijke verankering en controle met twee armen, wat vaak leidt tot onderlinge interferentie en volgordefouten. Deze bevindingen suggereren dat het huidige paradigma een diepgaand begrip van onderlinge kinematische beperkingen mist, en benadrukken de noodzaak voor toekomstig onderzoek om zich te richten op het vermijden van botsingen tussen armen en fijnmazige temporele sequentiebepaling.

English

Multimodal Large Language Models (MLLMs) have significantly advanced embodied AI, and using them to benchmark robotic intelligence has become a pivotal trend. However, existing frameworks remain predominantly confined to single-arm manipulation, failing to capture the spatio-temporal coordination required for bimanual tasks like lifting a heavy pot. To address this, we introduce BiManiBench, a hierarchical benchmark evaluating MLLMs across three tiers: fundamental spatial reasoning, high-level action planning, and low-level end-effector control. Our framework isolates unique bimanual challenges, such as arm reachability and kinematic constraints, thereby distinguishing perceptual hallucinations from planning failures. Analysis of over 30 state-of-the-art models reveals that despite high-level reasoning proficiency, MLLMs struggle with dual-arm spatial grounding and control, frequently resulting in mutual interference and sequencing errors. These findings suggest the current paradigm lacks a deep understanding of mutual kinematic constraints, highlighting the need for future research to focus on inter-arm collision-avoidance and fine-grained temporal sequencing.

BiManiBench: Een Hiërarchische Benchmark voor het Evalueren van Bimanuele Coördinatie van Multimodale Large Language Models

BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language Models

Samenvatting

Support