BiManiBench: Un Punto de Referencia Jerárquico para Evaluar la Coordinación Bimanual de Modelos de Lenguaje Grande Multimodales

Resumen

Los Modelos de Lenguaje Grandes Multimodales (MLLMs) han avanzado significativamente la IA encarnada, y su uso para evaluar la inteligencia robótica se ha convertido en una tendencia pivotal. Sin embargo, los marcos existentes se mantienen predominantemente confinados a la manipulación con un solo brazo, sin capturar la coordinación espacio-temporal requerida para tareas bimanuales como levantar una olla pesada. Para abordar esto, presentamos BiManiBench, un benchmark jerárquico que evalúa los MLLMs en tres niveles: razonamiento espacial fundamental, planificación de acciones de alto nivel y control de bajo nivel del efector final. Nuestro marco aísla desafíos bimanuales únicos, como la alcanzabilidad del brazo y las restricciones cinemáticas, distinguiendo así las alucinaciones perceptivas de los fallos de planificación. El análisis de más de 30 modelos de última generación revela que, a pesar de la competencia en el razonamiento de alto nivel, los MLLMs tienen dificultades con la fundamentación espacial y el control de brazos duales, lo que frecuentemente resulta en interferencia mutua y errores de secuenciación. Estos hallazgos sugieren que el paradigma actual carece de una comprensión profunda de las restricciones cinemáticas mutuas, destacando la necesidad de que futuras investigaciones se centren en la evitación de colisiones entre brazos y la secuenciación temporal de grano fino.

English

Multimodal Large Language Models (MLLMs) have significantly advanced embodied AI, and using them to benchmark robotic intelligence has become a pivotal trend. However, existing frameworks remain predominantly confined to single-arm manipulation, failing to capture the spatio-temporal coordination required for bimanual tasks like lifting a heavy pot. To address this, we introduce BiManiBench, a hierarchical benchmark evaluating MLLMs across three tiers: fundamental spatial reasoning, high-level action planning, and low-level end-effector control. Our framework isolates unique bimanual challenges, such as arm reachability and kinematic constraints, thereby distinguishing perceptual hallucinations from planning failures. Analysis of over 30 state-of-the-art models reveals that despite high-level reasoning proficiency, MLLMs struggle with dual-arm spatial grounding and control, frequently resulting in mutual interference and sequencing errors. These findings suggest the current paradigm lacks a deep understanding of mutual kinematic constraints, highlighting the need for future research to focus on inter-arm collision-avoidance and fine-grained temporal sequencing.

BiManiBench: Un Punto de Referencia Jerárquico para Evaluar la Coordinación Bimanual de Modelos de Lenguaje Grande Multimodales

BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language Models

Resumen

Support