MARBLE: Ein anspruchsvoller Benchmark für multimodales räumliches Denken und Planen
MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning
June 28, 2025
Autoren: Yulun Jiang, Yekun Chai, Maria Brbić, Michael Moor
cs.AI
Zusammenfassung
Die Fähigkeit, Informationen aus mehreren Modalitäten zu verarbeiten und schrittweise durch sie zu schlussfolgern, bleibt eine entscheidende Herausforderung bei der Weiterentwicklung der künstlichen Intelligenz. Bisher konzentrieren sich bestehende Benchmarks für logisches Denken jedoch entweder auf textbasiertes Schließen oder verwenden multimodale Fragen, die durch direktes Abrufen von Informationen aus einer nicht-textuellen Modalität beantwortet werden können. Somit bleibt komplexes logisches Denken in multimodalen Domänen weitgehend unverstanden. Hier präsentieren wir MARBLE, einen anspruchsvollen Benchmark für multimodales logisches Denken, der darauf abzielt, multimodale Sprachmodelle (MLLMs) in ihrer Fähigkeit zu testen, komplexe multimodale Probleme und Umgebungen schrittweise sorgfältig zu analysieren. MARBLE besteht aus zwei äußerst anspruchsvollen Aufgaben, M-Portal und M-Cube, die das Erstellen und Verstehen von mehrstufigen Plänen unter räumlichen, visuellen und physikalischen Einschränkungen erfordern. Wir stellen fest, dass aktuelle MLLMs bei MARBLE schlecht abschneiden – alle 12 fortgeschrittenen Modelle erzielen nahezu zufällige Ergebnisse bei M-Portal und eine Genauigkeit von 0 % bei M-Cube. Nur in vereinfachten Teilaufgaben übertreffen einige Modelle die Zufallsbasis, was darauf hinweist, dass komplexes logisches Denken für bestehende MLLMs nach wie vor eine Herausforderung darstellt. Darüber hinaus zeigen wir, dass die Wahrnehmung ein Engpass bleibt, da MLLMs gelegentlich scheitern, Informationen aus den visuellen Eingaben zu extrahieren. Indem wir die Grenzen von MLLMs aufzeigen, hoffen wir, dass MARBLE die Entwicklung der nächsten Generation von Modellen anregt, die in der Lage sind, über viele multimodale Denkschritte hinweg zu schlussfolgern und zu planen.
English
The ability to process information from multiple modalities and to reason
through it step-by-step remains a critical challenge in advancing artificial
intelligence. However, existing reasoning benchmarks focus on text-only
reasoning, or employ multimodal questions that can be answered by directly
retrieving information from a non-text modality. Thus, complex reasoning
remains poorly understood in multimodal domains. Here, we present MARBLE, a
challenging multimodal reasoning benchmark that is designed to scrutinize
multimodal language models (MLLMs) in their ability to carefully reason
step-by-step through complex multimodal problems and environments. MARBLE is
composed of two highly challenging tasks, M-Portal and M-Cube, that require the
crafting and understanding of multistep plans under spatial, visual, and
physical constraints. We find that current MLLMs perform poorly on MARBLE --
all the 12 advanced models obtain near-random performance on M-Portal and 0%
accuracy on M-Cube. Only in simplified subtasks some models outperform the
random baseline, indicating that complex reasoning is still a challenge for
existing MLLMs. Moreover, we show that perception remains a bottleneck, where
MLLMs occasionally fail to extract information from the visual inputs. By
shedding a light on the limitations of MLLMs, we hope that MARBLE will spur the
development of the next generation of models with the ability to reason and
plan across many, multimodal reasoning steps.