LEGO-Головоломки: Насколько Хороши MLLM в Многошаговом Пространственном Мышлении?
LEGO-Puzzles: How Good Are MLLMs at Multi-Step Spatial Reasoning?
March 25, 2025
Авторы: Kexian Tang, Junyao Gao, Yanhong Zeng, Haodong Duan, Yanan Sun, Zhening Xing, Wenran Liu, Kaifeng Lyu, Kai Chen
cs.AI
Аннотация
Многошаговое пространственное рассуждение предполагает понимание и анализ пространственных отношений на протяжении нескольких последовательных шагов, что крайне важно для решения сложных практических задач, таких как манипуляции роботов, автономная навигация и автоматизированная сборка. Чтобы оценить, насколько хорошо современные мультимодальные большие языковые модели (MLLMs) освоили эту фундаментальную способность, мы представляем LEGO-Puzzles — масштабируемый бенчмарк, разработанный для оценки как пространственного понимания, так и последовательного рассуждения в MLLMs с помощью задач, основанных на LEGO. LEGO-Puzzles включает 1100 тщательно отобранных визуальных вопросно-ответных (VQA) примеров, охватывающих 11 различных задач — от базового пространственного понимания до сложного многошагового рассуждения. На основе LEGO-Puzzles мы проводим всестороннюю оценку современных MLLMs и выявляем значительные ограничения в их способностях к пространственному рассуждению: даже самые мощные MLLMs могут ответить лишь примерно на половину тестовых случаев, тогда как участники-люди достигают точности свыше 90\%. Помимо задач VQA, мы оцениваем способности MLLMs генерировать изображения LEGO в соответствии с иллюстрациями сборки. Наши эксперименты показывают, что только Gemini-2.0-Flash и GPT-4o демонстрируют ограниченную способность следовать этим инструкциям, в то время как другие MLLMs либо воспроизводят входное изображение, либо генерируют совершенно нерелевантные результаты. В целом, LEGO-Puzzles выявляет критические недостатки в пространственном понимании и способностях к последовательному рассуждению у существующих MLLMs и подчеркивает необходимость дальнейшего прогресса в области мультимодального пространственного рассуждения.
English
Multi-step spatial reasoning entails understanding and reasoning about
spatial relationships across multiple sequential steps, which is crucial for
tackling complex real-world applications, such as robotic manipulation,
autonomous navigation, and automated assembly. To assess how well current
Multimodal Large Language Models (MLLMs) have acquired this fundamental
capability, we introduce LEGO-Puzzles, a scalable benchmark designed
to evaluate both spatial understanding and sequential
reasoning in MLLMs through LEGO-based tasks. LEGO-Puzzles consists of 1,100
carefully curated visual question-answering (VQA) samples spanning 11 distinct
tasks, ranging from basic spatial understanding to complex multi-step
reasoning. Based on LEGO-Puzzles, we conduct a comprehensive evaluation of
state-of-the-art MLLMs and uncover significant limitations in their spatial
reasoning capabilities: even the most powerful MLLMs can answer only about half
of the test cases, whereas human participants achieve over 90\% accuracy. In
addition to VQA tasks, we evaluate MLLMs' abilities to generate LEGO images
following assembly illustrations. Our experiments show that only
Gemini-2.0-Flash and GPT-4o exhibit a limited ability to follow these
instructions, while other MLLMs either replicate the input image or generate
completely irrelevant outputs. Overall, LEGO-Puzzles exposes critical
deficiencies in existing MLLMs' spatial understanding and sequential reasoning
capabilities, and underscores the need for further advancements in multimodal
spatial reasoning.Summary
AI-Generated Summary