MARBLE : Un Benchmark Exigeant pour le Raisonnement et la Planification Spatiale Multimodale
MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning
June 28, 2025
Auteurs: Yulun Jiang, Yekun Chai, Maria Brbić, Michael Moor
cs.AI
Résumé
La capacité à traiter des informations provenant de multiples modalités et à raisonner étape par étape reste un défi critique dans l'avancement de l'intelligence artificielle. Cependant, les benchmarks de raisonnement existants se concentrent sur un raisonnement basé uniquement sur le texte, ou utilisent des questions multimodales qui peuvent être résolues en extrayant directement des informations d'une modalité non textuelle. Ainsi, le raisonnement complexe reste mal compris dans les domaines multimodaux. Ici, nous présentons MARBLE, un benchmark de raisonnement multimodal exigeant conçu pour évaluer rigoureusement les modèles de langage multimodaux (MLLMs) dans leur capacité à raisonner soigneusement étape par étape à travers des problèmes et environnements multimodaux complexes. MARBLE est composé de deux tâches hautement difficiles, M-Portal et M-Cube, qui nécessitent la conception et la compréhension de plans multi-étapes sous des contraintes spatiales, visuelles et physiques. Nous constatons que les MLLMs actuels obtiennent de faibles performances sur MARBLE — les 12 modèles avancés obtiennent des résultats proches du hasard sur M-Portal et une précision de 0 % sur M-Cube. Seulement dans des sous-tâches simplifiées, certains modèles surpassent le seuil aléatoire, indiquant que le raisonnement complexe reste un défi pour les MLLMs existants. De plus, nous montrons que la perception reste un goulot d'étranglement, où les MLLMs échouent parfois à extraire des informations des entrées visuelles. En mettant en lumière les limites des MLLMs, nous espérons que MARBLE stimulera le développement de la prochaine génération de modèles capables de raisonner et de planifier à travers de nombreuses étapes de raisonnement multimodal.
English
The ability to process information from multiple modalities and to reason
through it step-by-step remains a critical challenge in advancing artificial
intelligence. However, existing reasoning benchmarks focus on text-only
reasoning, or employ multimodal questions that can be answered by directly
retrieving information from a non-text modality. Thus, complex reasoning
remains poorly understood in multimodal domains. Here, we present MARBLE, a
challenging multimodal reasoning benchmark that is designed to scrutinize
multimodal language models (MLLMs) in their ability to carefully reason
step-by-step through complex multimodal problems and environments. MARBLE is
composed of two highly challenging tasks, M-Portal and M-Cube, that require the
crafting and understanding of multistep plans under spatial, visual, and
physical constraints. We find that current MLLMs perform poorly on MARBLE --
all the 12 advanced models obtain near-random performance on M-Portal and 0%
accuracy on M-Cube. Only in simplified subtasks some models outperform the
random baseline, indicating that complex reasoning is still a challenge for
existing MLLMs. Moreover, we show that perception remains a bottleneck, where
MLLMs occasionally fail to extract information from the visual inputs. By
shedding a light on the limitations of MLLMs, we hope that MARBLE will spur the
development of the next generation of models with the ability to reason and
plan across many, multimodal reasoning steps.