ChatPaper.aiChatPaper

LEGO-Puzzles: Quão Boas São as MLLMs no Raciocínio Espacial Multi-Etapas?

LEGO-Puzzles: How Good Are MLLMs at Multi-Step Spatial Reasoning?

March 25, 2025
Autores: Kexian Tang, Junyao Gao, Yanhong Zeng, Haodong Duan, Yanan Sun, Zhening Xing, Wenran Liu, Kaifeng Lyu, Kai Chen
cs.AI

Resumo

O raciocínio espacial em múltiplos passos envolve a compreensão e o raciocínio sobre relações espaciais ao longo de várias etapas sequenciais, o que é crucial para abordar aplicações complexas do mundo real, como manipulação robótica, navegação autônoma e montagem automatizada. Para avaliar o quão bem os atuais Modelos de Linguagem Multimodal de Grande Escala (MLLMs) adquiriram essa capacidade fundamental, introduzimos o LEGO-Puzzles, um benchmark escalável projetado para avaliar tanto o entendimento espacial quanto o raciocínio sequencial em MLLMs por meio de tarefas baseadas em LEGO. O LEGO-Puzzles consiste em 1.100 amostras cuidadosamente curadas de questionamento visual (VQA) abrangendo 11 tarefas distintas, desde o entendimento espacial básico até o raciocínio complexo em múltiplos passos. Com base no LEGO-Puzzles, realizamos uma avaliação abrangente dos MLLMs mais avançados e revelamos limitações significativas em suas capacidades de raciocínio espacial: mesmo os MLLMs mais poderosos conseguem responder apenas cerca de metade dos casos de teste, enquanto participantes humanos alcançam mais de 90% de precisão. Além das tarefas de VQA, avaliamos as habilidades dos MLLMs para gerar imagens de LEGO seguindo ilustrações de montagem. Nossos experimentos mostram que apenas o Gemini-2.0-Flash e o GPT-4o exibem uma capacidade limitada de seguir essas instruções, enquanto outros MLLMs ou replicam a imagem de entrada ou geram saídas completamente irrelevantes. No geral, o LEGO-Puzzles expõe deficiências críticas no entendimento espacial e nas capacidades de raciocínio sequencial dos MLLMs existentes, e destaca a necessidade de avanços adicionais no raciocínio espacial multimodal.
English
Multi-step spatial reasoning entails understanding and reasoning about spatial relationships across multiple sequential steps, which is crucial for tackling complex real-world applications, such as robotic manipulation, autonomous navigation, and automated assembly. To assess how well current Multimodal Large Language Models (MLLMs) have acquired this fundamental capability, we introduce LEGO-Puzzles, a scalable benchmark designed to evaluate both spatial understanding and sequential reasoning in MLLMs through LEGO-based tasks. LEGO-Puzzles consists of 1,100 carefully curated visual question-answering (VQA) samples spanning 11 distinct tasks, ranging from basic spatial understanding to complex multi-step reasoning. Based on LEGO-Puzzles, we conduct a comprehensive evaluation of state-of-the-art MLLMs and uncover significant limitations in their spatial reasoning capabilities: even the most powerful MLLMs can answer only about half of the test cases, whereas human participants achieve over 90\% accuracy. In addition to VQA tasks, we evaluate MLLMs' abilities to generate LEGO images following assembly illustrations. Our experiments show that only Gemini-2.0-Flash and GPT-4o exhibit a limited ability to follow these instructions, while other MLLMs either replicate the input image or generate completely irrelevant outputs. Overall, LEGO-Puzzles exposes critical deficiencies in existing MLLMs' spatial understanding and sequential reasoning capabilities, and underscores the need for further advancements in multimodal spatial reasoning.

Summary

AI-Generated Summary

PDF342March 27, 2025