BiManiBench: Eine hierarchische Benchmark zur Bewertung der bimanuellen Koordination multimodaler großer Sprachmodelle

Zusammenfassung

Multimodale Large Language Models (MLLMs) haben die verkörperte KI erheblich vorangetrieben, und ihre Verwendung als Benchmark für robotische Intelligenz ist zu einem zentralen Trend geworden. Bisherige Bewertungsrahmen beschränken sich jedoch überwiegend auf Manipulation mit einem einzelnen Arm und erfassen nicht die räumlich-zeitliche Koordination, die für bimanuelle Aufgaben wie das Anheben eines schweren Topfes erforderlich ist. Um dies zu adressieren, stellen wir BiManiBench vor, einen hierarchischen Benchmark, der MLLMs auf drei Ebenen evaluiert: grundlegendes räumliches Schließen, hochrangige Aktionsplanung und niedrigrangige Steuerung der Endeffektoren. Unser Rahmenwerk isoliert einzigartige bimanuelle Herausforderungen wie die Reichweite der Arme und kinematische Einschränkungen und unterscheidet so Wahrnehmungshalluzinationen von Planungsfehlern. Die Analyse von über 30 modernsten Modellen zeigt, dass MLLMs trotz hoher Kompetenz im hochrangigen Schließen mit der räumlichen Verankerung und Steuerung zweier Arme kämpfen, was häufig zu gegenseitigen Interferenzen und Sequenzierungsfehlern führt. Diese Ergebnisse deuten darauf hin, dass dem aktuellen Paradigma ein tiefgehendes Verständnis gegenseitiger kinematischer Beschränkungen fehlt, was die Notwendigkeit zukünftiger Forschung zur Vermeidung von Kollisionen zwischen den Armen und zur fein abgestuften zeitlichen Sequenzierung unterstreicht.

English

Multimodal Large Language Models (MLLMs) have significantly advanced embodied AI, and using them to benchmark robotic intelligence has become a pivotal trend. However, existing frameworks remain predominantly confined to single-arm manipulation, failing to capture the spatio-temporal coordination required for bimanual tasks like lifting a heavy pot. To address this, we introduce BiManiBench, a hierarchical benchmark evaluating MLLMs across three tiers: fundamental spatial reasoning, high-level action planning, and low-level end-effector control. Our framework isolates unique bimanual challenges, such as arm reachability and kinematic constraints, thereby distinguishing perceptual hallucinations from planning failures. Analysis of over 30 state-of-the-art models reveals that despite high-level reasoning proficiency, MLLMs struggle with dual-arm spatial grounding and control, frequently resulting in mutual interference and sequencing errors. These findings suggest the current paradigm lacks a deep understanding of mutual kinematic constraints, highlighting the need for future research to focus on inter-arm collision-avoidance and fine-grained temporal sequencing.

BiManiBench: Eine hierarchische Benchmark zur Bewertung der bimanuellen Koordination multimodaler großer Sprachmodelle

BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language Models

Zusammenfassung

Support