MARBLE: Сложный эталонный тест для мультимодального пространственного мышления и планирования

Аннотация

Способность обрабатывать информацию из нескольких модальностей и последовательно рассуждать на её основе остаётся ключевой задачей в развитии искусственного интеллекта. Однако существующие тесты на рассуждение сосредоточены исключительно на текстовых данных или используют мультимодальные вопросы, на которые можно ответить путём прямого извлечения информации из неметекстовой модальности. Таким образом, сложное рассуждение в мультимодальных областях остаётся малоизученным. В данной работе мы представляем MARBLE — сложный мультимодальный тест на рассуждение, разработанный для тщательной проверки способности мультимодальных языковых моделей (MLLMs) последовательно анализировать сложные мультимодальные задачи и среды. MARBLE состоит из двух крайне сложных задач, M-Portal и M-Cube, которые требуют создания и понимания многошаговых планов с учётом пространственных, визуальных и физических ограничений. Мы обнаружили, что современные MLLMs демонстрируют низкие результаты на MARBLE — все 12 передовых моделей показывают результаты, близкие к случайным, на M-Portal и 0% точности на M-Cube. Лишь в упрощённых подзадачах некоторые модели превосходят случайный базовый уровень, что указывает на то, что сложное рассуждение по-прежнему остаётся вызовом для существующих MLLMs. Более того, мы показываем, что восприятие остаётся узким местом, где MLLMs иногда не могут извлечь информацию из визуальных входных данных. Освещая ограничения MLLMs, мы надеемся, что MARBLE стимулирует разработку следующего поколения моделей, способных рассуждать и планировать на основе множества мультимодальных шагов рассуждения.

English

The ability to process information from multiple modalities and to reason through it step-by-step remains a critical challenge in advancing artificial intelligence. However, existing reasoning benchmarks focus on text-only reasoning, or employ multimodal questions that can be answered by directly retrieving information from a non-text modality. Thus, complex reasoning remains poorly understood in multimodal domains. Here, we present MARBLE, a challenging multimodal reasoning benchmark that is designed to scrutinize multimodal language models (MLLMs) in their ability to carefully reason step-by-step through complex multimodal problems and environments. MARBLE is composed of two highly challenging tasks, M-Portal and M-Cube, that require the crafting and understanding of multistep plans under spatial, visual, and physical constraints. We find that current MLLMs perform poorly on MARBLE -- all the 12 advanced models obtain near-random performance on M-Portal and 0% accuracy on M-Cube. Only in simplified subtasks some models outperform the random baseline, indicating that complex reasoning is still a challenge for existing MLLMs. Moreover, we show that perception remains a bottleneck, where MLLMs occasionally fail to extract information from the visual inputs. By shedding a light on the limitations of MLLMs, we hope that MARBLE will spur the development of the next generation of models with the ability to reason and plan across many, multimodal reasoning steps.

MARBLE: Сложный эталонный тест для мультимодального пространственного мышления и планирования

MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning

Аннотация

Support