BiManiBench : Un benchmark hiérarchique pour l'évaluation de la coordination bimanuelle des modèles de langage multimodaux de grande taille

Résumé

Les modèles de langage multimodaux de grande taille (MLLM) ont considérablement fait progresser l'IA incarnée, et leur utilisation pour évaluer l'intelligence robotique est devenue une tendance pivot. Cependant, les cadres existants restent principalement confinés à la manipulation à bras unique, ne parvenant pas à saisir la coordination spatio-temporelle requise pour les tâches bimanuelles comme soulever une lourde casserole. Pour y remédier, nous présentons BiManiBench, un benchmark hiérarchique évaluant les MLLM sur trois niveaux : le raisonnement spatial fondamental, la planification d'actions de haut niveau et le contrôle de bas niveau des effecteurs terminaux. Notre cadre isole les défis bimanuels uniques, tels que l'accessibilité des bras et les contraintes cinématiques, distinguant ainsi les hallucinations perceptives des échecs de planification. L'analyse de plus de 30 modèles de pointe révèle que, malgré une compétence en raisonnement de haut niveau, les MLLM peinent avec l'ancrage spatial et le contrôle à double bras, entraînant fréquemment des interférences mutuelles et des erreurs de séquencement. Ces résultats suggèrent que le paradigme actuel manque d'une compréhension approfondie des contraintes cinématiques mutuelles, soulignant la nécessité pour les recherches futures de se concentrer sur l'évitement de collisions entre les bras et le séquencement temporel fin.

English

Multimodal Large Language Models (MLLMs) have significantly advanced embodied AI, and using them to benchmark robotic intelligence has become a pivotal trend. However, existing frameworks remain predominantly confined to single-arm manipulation, failing to capture the spatio-temporal coordination required for bimanual tasks like lifting a heavy pot. To address this, we introduce BiManiBench, a hierarchical benchmark evaluating MLLMs across three tiers: fundamental spatial reasoning, high-level action planning, and low-level end-effector control. Our framework isolates unique bimanual challenges, such as arm reachability and kinematic constraints, thereby distinguishing perceptual hallucinations from planning failures. Analysis of over 30 state-of-the-art models reveals that despite high-level reasoning proficiency, MLLMs struggle with dual-arm spatial grounding and control, frequently resulting in mutual interference and sequencing errors. These findings suggest the current paradigm lacks a deep understanding of mutual kinematic constraints, highlighting the need for future research to focus on inter-arm collision-avoidance and fine-grained temporal sequencing.

BiManiBench : Un benchmark hiérarchique pour l'évaluation de la coordination bimanuelle des modèles de langage multimodaux de grande taille

BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language Models

Résumé

Support