ChatPaper.aiChatPaper

MARBLE: Ein anspruchsvoller Benchmark für multimodales räumliches Denken und Planen

MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning

June 28, 2025
Autoren: Yulun Jiang, Yekun Chai, Maria Brbić, Michael Moor
cs.AI

Zusammenfassung

Die Fähigkeit, Informationen aus mehreren Modalitäten zu verarbeiten und schrittweise durch sie zu schlussfolgern, bleibt eine entscheidende Herausforderung bei der Weiterentwicklung der künstlichen Intelligenz. Bisher konzentrieren sich bestehende Benchmarks für logisches Denken jedoch entweder auf textbasiertes Schließen oder verwenden multimodale Fragen, die durch direktes Abrufen von Informationen aus einer nicht-textuellen Modalität beantwortet werden können. Somit bleibt komplexes logisches Denken in multimodalen Domänen weitgehend unverstanden. Hier präsentieren wir MARBLE, einen anspruchsvollen Benchmark für multimodales logisches Denken, der darauf abzielt, multimodale Sprachmodelle (MLLMs) in ihrer Fähigkeit zu testen, komplexe multimodale Probleme und Umgebungen schrittweise sorgfältig zu analysieren. MARBLE besteht aus zwei äußerst anspruchsvollen Aufgaben, M-Portal und M-Cube, die das Erstellen und Verstehen von mehrstufigen Plänen unter räumlichen, visuellen und physikalischen Einschränkungen erfordern. Wir stellen fest, dass aktuelle MLLMs bei MARBLE schlecht abschneiden – alle 12 fortgeschrittenen Modelle erzielen nahezu zufällige Ergebnisse bei M-Portal und eine Genauigkeit von 0 % bei M-Cube. Nur in vereinfachten Teilaufgaben übertreffen einige Modelle die Zufallsbasis, was darauf hinweist, dass komplexes logisches Denken für bestehende MLLMs nach wie vor eine Herausforderung darstellt. Darüber hinaus zeigen wir, dass die Wahrnehmung ein Engpass bleibt, da MLLMs gelegentlich scheitern, Informationen aus den visuellen Eingaben zu extrahieren. Indem wir die Grenzen von MLLMs aufzeigen, hoffen wir, dass MARBLE die Entwicklung der nächsten Generation von Modellen anregt, die in der Lage sind, über viele multimodale Denkschritte hinweg zu schlussfolgern und zu planen.
English
The ability to process information from multiple modalities and to reason through it step-by-step remains a critical challenge in advancing artificial intelligence. However, existing reasoning benchmarks focus on text-only reasoning, or employ multimodal questions that can be answered by directly retrieving information from a non-text modality. Thus, complex reasoning remains poorly understood in multimodal domains. Here, we present MARBLE, a challenging multimodal reasoning benchmark that is designed to scrutinize multimodal language models (MLLMs) in their ability to carefully reason step-by-step through complex multimodal problems and environments. MARBLE is composed of two highly challenging tasks, M-Portal and M-Cube, that require the crafting and understanding of multistep plans under spatial, visual, and physical constraints. We find that current MLLMs perform poorly on MARBLE -- all the 12 advanced models obtain near-random performance on M-Portal and 0% accuracy on M-Cube. Only in simplified subtasks some models outperform the random baseline, indicating that complex reasoning is still a challenge for existing MLLMs. Moreover, we show that perception remains a bottleneck, where MLLMs occasionally fail to extract information from the visual inputs. By shedding a light on the limitations of MLLMs, we hope that MARBLE will spur the development of the next generation of models with the ability to reason and plan across many, multimodal reasoning steps.
PDF54July 1, 2025