MARBLE: Un Benchmark Desafiante para el Razonamiento y la Planificación Espacial Multimodal

Resumen

La capacidad de procesar información de múltiples modalidades y razonar a través de ella paso a paso sigue siendo un desafío crítico en el avance de la inteligencia artificial. Sin embargo, los benchmarks de razonamiento existentes se centran en el razonamiento basado únicamente en texto o emplean preguntas multimodales que pueden responderse recuperando directamente información de una modalidad no textual. Por lo tanto, el razonamiento complejo sigue siendo poco comprendido en dominios multimodales. Aquí presentamos MARBLE, un benchmark de razonamiento multimodal desafiante diseñado para examinar la capacidad de los modelos de lenguaje multimodal (MLLMs) para razonar cuidadosamente paso a paso a través de problemas y entornos multimodales complejos. MARBLE está compuesto por dos tareas altamente desafiantes, M-Portal y M-Cube, que requieren la elaboración y comprensión de planes de múltiples pasos bajo restricciones espaciales, visuales y físicas. Encontramos que los MLLMs actuales tienen un rendimiento deficiente en MARBLE: los 12 modelos avanzados obtienen un rendimiento cercano al azar en M-Portal y un 0% de precisión en M-Cube. Solo en subtareas simplificadas algunos modelos superan la línea base aleatoria, lo que indica que el razonamiento complejo sigue siendo un desafío para los MLLMs existentes. Además, demostramos que la percepción sigue siendo un cuello de botella, donde los MLLMs ocasionalmente no logran extraer información de las entradas visuales. Al arrojar luz sobre las limitaciones de los MLLMs, esperamos que MARBLE impulse el desarrollo de la próxima generación de modelos con la capacidad de razonar y planificar a través de muchos pasos de razonamiento multimodal.

English

The ability to process information from multiple modalities and to reason through it step-by-step remains a critical challenge in advancing artificial intelligence. However, existing reasoning benchmarks focus on text-only reasoning, or employ multimodal questions that can be answered by directly retrieving information from a non-text modality. Thus, complex reasoning remains poorly understood in multimodal domains. Here, we present MARBLE, a challenging multimodal reasoning benchmark that is designed to scrutinize multimodal language models (MLLMs) in their ability to carefully reason step-by-step through complex multimodal problems and environments. MARBLE is composed of two highly challenging tasks, M-Portal and M-Cube, that require the crafting and understanding of multistep plans under spatial, visual, and physical constraints. We find that current MLLMs perform poorly on MARBLE -- all the 12 advanced models obtain near-random performance on M-Portal and 0% accuracy on M-Cube. Only in simplified subtasks some models outperform the random baseline, indicating that complex reasoning is still a challenge for existing MLLMs. Moreover, we show that perception remains a bottleneck, where MLLMs occasionally fail to extract information from the visual inputs. By shedding a light on the limitations of MLLMs, we hope that MARBLE will spur the development of the next generation of models with the ability to reason and plan across many, multimodal reasoning steps.

MARBLE: Un Benchmark Desafiante para el Razonamiento y la Planificación Espacial Multimodal

MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning

Resumen

Support