BiManiBench: un benchmark gerarchico per la valutazione della coordinazione bimanuale nei modelli linguistici multimodali di grandi dimensioni

Abstract

I Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) hanno fatto progredire significativamente l'IA incarnata, e il loro utilizzo per valutare l'intelligenza robotica è diventato una tendenza fondamentale. Tuttavia, i framework esistenti rimangono prevalentemente confinati alla manipolazione a braccio singolo, non riuscendo a cogliere la coordinazione spazio-temporale richiesta per compiti bimanuali come sollevare una pentola pesante. Per affrontare questo problema, introduciamo BiManiBench, un benchmark gerarchico che valuta gli MLLM su tre livelli: ragionamento spaziale fondamentale, pianificazione d'azione di alto livello e controllo di basso livello degli effettori terminali. Il nostro framework isola le sfide uniche del controllo bimanuale, come la raggiungibilità del braccio e i vincoli cinematici, distinguendo così le allucinazioni percettive dai fallimenti di pianificazione. L'analisi di oltre 30 modelli all'avanguardia rivela che, nonostante la competenza nel ragionamento di alto livello, gli MLLM faticano con l'ancoraggio spaziale e il controllo del doppio braccio, risultando frequentemente in interferenze reciproche ed errori di sequenziamento. Questi risultati suggeriscono che l'attuale paradigma manchi di una comprensione profonda dei vincoli cinematici reciproci, evidenziando la necessità per la ricerca futura di concentrarsi sull'evitamento delle collisioni tra bracci e sul sequenziamento temporale granulare.

English

Multimodal Large Language Models (MLLMs) have significantly advanced embodied AI, and using them to benchmark robotic intelligence has become a pivotal trend. However, existing frameworks remain predominantly confined to single-arm manipulation, failing to capture the spatio-temporal coordination required for bimanual tasks like lifting a heavy pot. To address this, we introduce BiManiBench, a hierarchical benchmark evaluating MLLMs across three tiers: fundamental spatial reasoning, high-level action planning, and low-level end-effector control. Our framework isolates unique bimanual challenges, such as arm reachability and kinematic constraints, thereby distinguishing perceptual hallucinations from planning failures. Analysis of over 30 state-of-the-art models reveals that despite high-level reasoning proficiency, MLLMs struggle with dual-arm spatial grounding and control, frequently resulting in mutual interference and sequencing errors. These findings suggest the current paradigm lacks a deep understanding of mutual kinematic constraints, highlighting the need for future research to focus on inter-arm collision-avoidance and fine-grained temporal sequencing.

BiManiBench: un benchmark gerarchico per la valutazione della coordinazione bimanuale nei modelli linguistici multimodali di grandi dimensioni

BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language Models

Abstract

Support