MARBLE: Un Benchmark Complesso per il Ragionamento e la Pianificazione Spaziale Multimodale
MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning
June 28, 2025
Autori: Yulun Jiang, Yekun Chai, Maria Brbić, Michael Moor
cs.AI
Abstract
La capacità di elaborare informazioni provenienti da molteplici modalità e di ragionare attraverso di esse passo dopo passo rimane una sfida cruciale per il progresso dell'intelligenza artificiale. Tuttavia, i benchmark di ragionamento esistenti si concentrano su ragionamenti basati esclusivamente sul testo o impiegano domande multimodali che possono essere risolte recuperando direttamente informazioni da una modalità non testuale. Di conseguenza, il ragionamento complesso rimane poco compreso nei domini multimodali. Qui presentiamo MARBLE, un benchmark di ragionamento multimodale impegnativo progettato per valutare i modelli linguistici multimodali (MLLM) nella loro capacità di ragionare attentamente passo dopo passo attraverso problemi e ambienti multimodali complessi. MARBLE è composto da due compiti altamente impegnativi, M-Portal e M-Cube, che richiedono la creazione e la comprensione di piani a più fasi sotto vincoli spaziali, visivi e fisici. Abbiamo riscontrato che gli attuali MLLM ottengono prestazioni scarse su MARBLE: tutti i 12 modelli avanzati raggiungono prestazioni quasi casuali su M-Portal e un'accuratezza dello 0% su M-Cube. Solo in alcuni sottocompiti semplificati alcuni modelli superano la linea di base casuale, indicando che il ragionamento complesso rimane una sfida per gli MLLM esistenti. Inoltre, dimostriamo che la percezione rimane un collo di bottiglia, dove gli MLLM occasionalmente non riescono a estrarre informazioni dagli input visivi. Mettendo in luce i limiti degli MLLM, speriamo che MARBLE stimoli lo sviluppo della prossima generazione di modelli con la capacità di ragionare e pianificare attraverso molti passi di ragionamento multimodale.
English
The ability to process information from multiple modalities and to reason
through it step-by-step remains a critical challenge in advancing artificial
intelligence. However, existing reasoning benchmarks focus on text-only
reasoning, or employ multimodal questions that can be answered by directly
retrieving information from a non-text modality. Thus, complex reasoning
remains poorly understood in multimodal domains. Here, we present MARBLE, a
challenging multimodal reasoning benchmark that is designed to scrutinize
multimodal language models (MLLMs) in their ability to carefully reason
step-by-step through complex multimodal problems and environments. MARBLE is
composed of two highly challenging tasks, M-Portal and M-Cube, that require the
crafting and understanding of multistep plans under spatial, visual, and
physical constraints. We find that current MLLMs perform poorly on MARBLE --
all the 12 advanced models obtain near-random performance on M-Portal and 0%
accuracy on M-Cube. Only in simplified subtasks some models outperform the
random baseline, indicating that complex reasoning is still a challenge for
existing MLLMs. Moreover, we show that perception remains a bottleneck, where
MLLMs occasionally fail to extract information from the visual inputs. By
shedding a light on the limitations of MLLMs, we hope that MARBLE will spur the
development of the next generation of models with the ability to reason and
plan across many, multimodal reasoning steps.