MARBLE: Un Benchmark Complesso per il Ragionamento e la Pianificazione Spaziale Multimodale

Abstract

La capacità di elaborare informazioni provenienti da molteplici modalità e di ragionare attraverso di esse passo dopo passo rimane una sfida cruciale per il progresso dell'intelligenza artificiale. Tuttavia, i benchmark di ragionamento esistenti si concentrano su ragionamenti basati esclusivamente sul testo o impiegano domande multimodali che possono essere risolte recuperando direttamente informazioni da una modalità non testuale. Di conseguenza, il ragionamento complesso rimane poco compreso nei domini multimodali. Qui presentiamo MARBLE, un benchmark di ragionamento multimodale impegnativo progettato per valutare i modelli linguistici multimodali (MLLM) nella loro capacità di ragionare attentamente passo dopo passo attraverso problemi e ambienti multimodali complessi. MARBLE è composto da due compiti altamente impegnativi, M-Portal e M-Cube, che richiedono la creazione e la comprensione di piani a più fasi sotto vincoli spaziali, visivi e fisici. Abbiamo riscontrato che gli attuali MLLM ottengono prestazioni scarse su MARBLE: tutti i 12 modelli avanzati raggiungono prestazioni quasi casuali su M-Portal e un'accuratezza dello 0% su M-Cube. Solo in alcuni sottocompiti semplificati alcuni modelli superano la linea di base casuale, indicando che il ragionamento complesso rimane una sfida per gli MLLM esistenti. Inoltre, dimostriamo che la percezione rimane un collo di bottiglia, dove gli MLLM occasionalmente non riescono a estrarre informazioni dagli input visivi. Mettendo in luce i limiti degli MLLM, speriamo che MARBLE stimoli lo sviluppo della prossima generazione di modelli con la capacità di ragionare e pianificare attraverso molti passi di ragionamento multimodale.

English

The ability to process information from multiple modalities and to reason through it step-by-step remains a critical challenge in advancing artificial intelligence. However, existing reasoning benchmarks focus on text-only reasoning, or employ multimodal questions that can be answered by directly retrieving information from a non-text modality. Thus, complex reasoning remains poorly understood in multimodal domains. Here, we present MARBLE, a challenging multimodal reasoning benchmark that is designed to scrutinize multimodal language models (MLLMs) in their ability to carefully reason step-by-step through complex multimodal problems and environments. MARBLE is composed of two highly challenging tasks, M-Portal and M-Cube, that require the crafting and understanding of multistep plans under spatial, visual, and physical constraints. We find that current MLLMs perform poorly on MARBLE -- all the 12 advanced models obtain near-random performance on M-Portal and 0% accuracy on M-Cube. Only in simplified subtasks some models outperform the random baseline, indicating that complex reasoning is still a challenge for existing MLLMs. Moreover, we show that perception remains a bottleneck, where MLLMs occasionally fail to extract information from the visual inputs. By shedding a light on the limitations of MLLMs, we hope that MARBLE will spur the development of the next generation of models with the ability to reason and plan across many, multimodal reasoning steps.

MARBLE: Un Benchmark Complesso per il Ragionamento e la Pianificazione Spaziale Multimodale

MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning

Abstract

Support