MARBLE: Сложный эталонный тест для мультимодального пространственного мышления и планирования
MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning
June 28, 2025
Авторы: Yulun Jiang, Yekun Chai, Maria Brbić, Michael Moor
cs.AI
Аннотация
Способность обрабатывать информацию из нескольких модальностей и последовательно рассуждать на её основе остаётся ключевой задачей в развитии искусственного интеллекта. Однако существующие тесты на рассуждение сосредоточены исключительно на текстовых данных или используют мультимодальные вопросы, на которые можно ответить путём прямого извлечения информации из неметекстовой модальности. Таким образом, сложное рассуждение в мультимодальных областях остаётся малоизученным. В данной работе мы представляем MARBLE — сложный мультимодальный тест на рассуждение, разработанный для тщательной проверки способности мультимодальных языковых моделей (MLLMs) последовательно анализировать сложные мультимодальные задачи и среды. MARBLE состоит из двух крайне сложных задач, M-Portal и M-Cube, которые требуют создания и понимания многошаговых планов с учётом пространственных, визуальных и физических ограничений. Мы обнаружили, что современные MLLMs демонстрируют низкие результаты на MARBLE — все 12 передовых моделей показывают результаты, близкие к случайным, на M-Portal и 0% точности на M-Cube. Лишь в упрощённых подзадачах некоторые модели превосходят случайный базовый уровень, что указывает на то, что сложное рассуждение по-прежнему остаётся вызовом для существующих MLLMs. Более того, мы показываем, что восприятие остаётся узким местом, где MLLMs иногда не могут извлечь информацию из визуальных входных данных. Освещая ограничения MLLMs, мы надеемся, что MARBLE стимулирует разработку следующего поколения моделей, способных рассуждать и планировать на основе множества мультимодальных шагов рассуждения.
English
The ability to process information from multiple modalities and to reason
through it step-by-step remains a critical challenge in advancing artificial
intelligence. However, existing reasoning benchmarks focus on text-only
reasoning, or employ multimodal questions that can be answered by directly
retrieving information from a non-text modality. Thus, complex reasoning
remains poorly understood in multimodal domains. Here, we present MARBLE, a
challenging multimodal reasoning benchmark that is designed to scrutinize
multimodal language models (MLLMs) in their ability to carefully reason
step-by-step through complex multimodal problems and environments. MARBLE is
composed of two highly challenging tasks, M-Portal and M-Cube, that require the
crafting and understanding of multistep plans under spatial, visual, and
physical constraints. We find that current MLLMs perform poorly on MARBLE --
all the 12 advanced models obtain near-random performance on M-Portal and 0%
accuracy on M-Cube. Only in simplified subtasks some models outperform the
random baseline, indicating that complex reasoning is still a challenge for
existing MLLMs. Moreover, we show that perception remains a bottleneck, where
MLLMs occasionally fail to extract information from the visual inputs. By
shedding a light on the limitations of MLLMs, we hope that MARBLE will spur the
development of the next generation of models with the ability to reason and
plan across many, multimodal reasoning steps.