BiManiBench: Иерархический бенчмарк для оценки бимануальной координации мультимодальных больших языковых моделей

Аннотация

Мультимодальные большие языковые модели (МБЯМ) значительно продвинули развитие воплощенного искусственного интеллекта, и их использование для тестирования роботизированного интеллекта стало ключевым трендом. Однако существующие системы в основном ограничиваются манипуляциями с помощью одного манипулятора, не охватывая пространственно-временную координацию, необходимую для двуручных задач, таких как подъем тяжелой кастрюли. Для решения этой проблемы мы представляем BiManiBench — иерархический бенчмарк, оценивающий МБЯМ на трех уровнях: базовое пространственное мышление, высокоуровневое планирование действий и низкоуровневое управление концевыми эффекторами. Наша система изолирует уникальные проблемы двуручного взаимодействия, такие как достижимость точек манипуляторами и кинематические ограничения, тем самым разделяя перцептивные галлюцинации и ошибки планирования. Анализ более 30 современных моделей показывает, что, несмотря на высокий уровень рассуждений, МБЯМ испытывают трудности с пространственным позиционированием и управлением для двух манипуляторов, что часто приводит к взаимным помехам и ошибкам в последовательности действий. Эти результаты указывают на то, что текущая парадигма lacks глубокого понимания взаимных кинематических ограничений, подчеркивая необходимость будущих исследований в области предотвращения столкновений между манипуляторами и точного временного планирования.

English

Multimodal Large Language Models (MLLMs) have significantly advanced embodied AI, and using them to benchmark robotic intelligence has become a pivotal trend. However, existing frameworks remain predominantly confined to single-arm manipulation, failing to capture the spatio-temporal coordination required for bimanual tasks like lifting a heavy pot. To address this, we introduce BiManiBench, a hierarchical benchmark evaluating MLLMs across three tiers: fundamental spatial reasoning, high-level action planning, and low-level end-effector control. Our framework isolates unique bimanual challenges, such as arm reachability and kinematic constraints, thereby distinguishing perceptual hallucinations from planning failures. Analysis of over 30 state-of-the-art models reveals that despite high-level reasoning proficiency, MLLMs struggle with dual-arm spatial grounding and control, frequently resulting in mutual interference and sequencing errors. These findings suggest the current paradigm lacks a deep understanding of mutual kinematic constraints, highlighting the need for future research to focus on inter-arm collision-avoidance and fine-grained temporal sequencing.

BiManiBench: Иерархический бенчмарк для оценки бимануальной координации мультимодальных больших языковых моделей

BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language Models

Аннотация

Support