BiManiBench: Um Benchmark Hierárquico para Avaliar a Coordenação Bimanual de Modelos de Linguagem Multimodais de Grande Escala

Resumo

Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) avançaram significativamente a IA incorporada, e seu uso para avaliar a inteligência robótica tornou-se uma tendência pivotal. No entanto, as estruturas existentes permanecem predominantemente confinadas à manipulação com um único braço, falhando em capturar a coordenação espaço-temporal necessária para tarefas bimanuais, como levantar uma panela pesada. Para resolver isso, apresentamos o BiManiBench, um benchmark hierárquico que avalia os MLLMs em três níveis: raciocínio espacial fundamental, planeamento de ações de alto nível e controlo de efetuadores finais de baixo nível. A nossa estrutura isola desafios bimanuais únicos, como a alcançabilidade do braço e restrições cinemáticas, distinguindo assim alucinações perceptivas de falhas de planeamento. A análise de mais de 30 modelos state-of-the-art revela que, apesar da proficiência no raciocínio de alto nível, os MLLMs lutam com a ancoragem espacial e o controlo de braços duplos, resultando frequentemente em interferência mútua e erros de sequenciação. Estas descobertas sugerem que o paradigma atual carece de uma compreensão profunda das restrições cinemáticas mútuas, destacando a necessidade de investigação futura focar na evitamento de colisões entre braços e na sequenciação temporal de granularidade fina.

English

Multimodal Large Language Models (MLLMs) have significantly advanced embodied AI, and using them to benchmark robotic intelligence has become a pivotal trend. However, existing frameworks remain predominantly confined to single-arm manipulation, failing to capture the spatio-temporal coordination required for bimanual tasks like lifting a heavy pot. To address this, we introduce BiManiBench, a hierarchical benchmark evaluating MLLMs across three tiers: fundamental spatial reasoning, high-level action planning, and low-level end-effector control. Our framework isolates unique bimanual challenges, such as arm reachability and kinematic constraints, thereby distinguishing perceptual hallucinations from planning failures. Analysis of over 30 state-of-the-art models reveals that despite high-level reasoning proficiency, MLLMs struggle with dual-arm spatial grounding and control, frequently resulting in mutual interference and sequencing errors. These findings suggest the current paradigm lacks a deep understanding of mutual kinematic constraints, highlighting the need for future research to focus on inter-arm collision-avoidance and fine-grained temporal sequencing.

BiManiBench: Um Benchmark Hierárquico para Avaliar a Coordenação Bimanual de Modelos de Linguagem Multimodais de Grande Escala

BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language Models

Resumo

Support