LEGO-Puzzles : Quelle est la performance des MLLM en matière de raisonnement spatial multi-étapes ?
LEGO-Puzzles: How Good Are MLLMs at Multi-Step Spatial Reasoning?
March 25, 2025
Auteurs: Kexian Tang, Junyao Gao, Yanhong Zeng, Haodong Duan, Yanan Sun, Zhening Xing, Wenran Liu, Kaifeng Lyu, Kai Chen
cs.AI
Résumé
Le raisonnement spatial multi-étapes implique la compréhension et l'analyse des relations spatiales à travers plusieurs étapes séquentielles, ce qui est crucial pour aborder des applications complexes du monde réel, telles que la manipulation robotique, la navigation autonome et l'assemblage automatisé. Pour évaluer dans quelle mesure les modèles de langage multimodaux de grande taille (MLLMs) actuels ont acquis cette capacité fondamentale, nous introduisons LEGO-Puzzles, un benchmark évolutif conçu pour évaluer à la fois la compréhension spatiale et le raisonnement séquentiel des MLLMs à travers des tâches basées sur LEGO. LEGO-Puzzles comprend 1 100 échantillons soigneusement sélectionnés de questions-réponses visuelles (VQA) couvrant 11 tâches distinctes, allant de la compréhension spatiale de base au raisonnement multi-étapes complexe. Sur la base de LEGO-Puzzles, nous menons une évaluation approfondie des MLLMs de pointe et révélons des limitations significatives dans leurs capacités de raisonnement spatial : même les MLLMs les plus puissants ne peuvent répondre qu'à environ la moitié des cas de test, alors que les participants humains atteignent une précision de plus de 90 %. En plus des tâches VQA, nous évaluons les capacités des MLLMs à générer des images LEGO en suivant des illustrations d'assemblage. Nos expériences montrent que seuls Gemini-2.0-Flash et GPT-4o présentent une capacité limitée à suivre ces instructions, tandis que les autres MLLMs reproduisent l'image d'entrée ou génèrent des sorties complètement non pertinentes. Globalement, LEGO-Puzzles met en lumière des lacunes critiques dans la compréhension spatiale et les capacités de raisonnement séquentiel des MLLMs existants, et souligne la nécessité de progrès supplémentaires dans le raisonnement spatial multimodal.
English
Multi-step spatial reasoning entails understanding and reasoning about
spatial relationships across multiple sequential steps, which is crucial for
tackling complex real-world applications, such as robotic manipulation,
autonomous navigation, and automated assembly. To assess how well current
Multimodal Large Language Models (MLLMs) have acquired this fundamental
capability, we introduce LEGO-Puzzles, a scalable benchmark designed
to evaluate both spatial understanding and sequential
reasoning in MLLMs through LEGO-based tasks. LEGO-Puzzles consists of 1,100
carefully curated visual question-answering (VQA) samples spanning 11 distinct
tasks, ranging from basic spatial understanding to complex multi-step
reasoning. Based on LEGO-Puzzles, we conduct a comprehensive evaluation of
state-of-the-art MLLMs and uncover significant limitations in their spatial
reasoning capabilities: even the most powerful MLLMs can answer only about half
of the test cases, whereas human participants achieve over 90\% accuracy. In
addition to VQA tasks, we evaluate MLLMs' abilities to generate LEGO images
following assembly illustrations. Our experiments show that only
Gemini-2.0-Flash and GPT-4o exhibit a limited ability to follow these
instructions, while other MLLMs either replicate the input image or generate
completely irrelevant outputs. Overall, LEGO-Puzzles exposes critical
deficiencies in existing MLLMs' spatial understanding and sequential reasoning
capabilities, and underscores the need for further advancements in multimodal
spatial reasoning.Summary
AI-Generated Summary