MARBLE: Un Benchmark Desafiante para el Razonamiento y la Planificación Espacial Multimodal
MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning
June 28, 2025
Autores: Yulun Jiang, Yekun Chai, Maria Brbić, Michael Moor
cs.AI
Resumen
La capacidad de procesar información de múltiples modalidades y razonar a través de ella paso a paso sigue siendo un desafío crítico en el avance de la inteligencia artificial. Sin embargo, los benchmarks de razonamiento existentes se centran en el razonamiento basado únicamente en texto o emplean preguntas multimodales que pueden responderse recuperando directamente información de una modalidad no textual. Por lo tanto, el razonamiento complejo sigue siendo poco comprendido en dominios multimodales. Aquí presentamos MARBLE, un benchmark de razonamiento multimodal desafiante diseñado para examinar la capacidad de los modelos de lenguaje multimodal (MLLMs) para razonar cuidadosamente paso a paso a través de problemas y entornos multimodales complejos. MARBLE está compuesto por dos tareas altamente desafiantes, M-Portal y M-Cube, que requieren la elaboración y comprensión de planes de múltiples pasos bajo restricciones espaciales, visuales y físicas. Encontramos que los MLLMs actuales tienen un rendimiento deficiente en MARBLE: los 12 modelos avanzados obtienen un rendimiento cercano al azar en M-Portal y un 0% de precisión en M-Cube. Solo en subtareas simplificadas algunos modelos superan la línea base aleatoria, lo que indica que el razonamiento complejo sigue siendo un desafío para los MLLMs existentes. Además, demostramos que la percepción sigue siendo un cuello de botella, donde los MLLMs ocasionalmente no logran extraer información de las entradas visuales. Al arrojar luz sobre las limitaciones de los MLLMs, esperamos que MARBLE impulse el desarrollo de la próxima generación de modelos con la capacidad de razonar y planificar a través de muchos pasos de razonamiento multimodal.
English
The ability to process information from multiple modalities and to reason
through it step-by-step remains a critical challenge in advancing artificial
intelligence. However, existing reasoning benchmarks focus on text-only
reasoning, or employ multimodal questions that can be answered by directly
retrieving information from a non-text modality. Thus, complex reasoning
remains poorly understood in multimodal domains. Here, we present MARBLE, a
challenging multimodal reasoning benchmark that is designed to scrutinize
multimodal language models (MLLMs) in their ability to carefully reason
step-by-step through complex multimodal problems and environments. MARBLE is
composed of two highly challenging tasks, M-Portal and M-Cube, that require the
crafting and understanding of multistep plans under spatial, visual, and
physical constraints. We find that current MLLMs perform poorly on MARBLE --
all the 12 advanced models obtain near-random performance on M-Portal and 0%
accuracy on M-Cube. Only in simplified subtasks some models outperform the
random baseline, indicating that complex reasoning is still a challenge for
existing MLLMs. Moreover, we show that perception remains a bottleneck, where
MLLMs occasionally fail to extract information from the visual inputs. By
shedding a light on the limitations of MLLMs, we hope that MARBLE will spur the
development of the next generation of models with the ability to reason and
plan across many, multimodal reasoning steps.