LEGO-Puzzles: ¿Qué Tan Buenos Son los MLLMs en el Razonamiento Espacial de Múltiples Pasos?
LEGO-Puzzles: How Good Are MLLMs at Multi-Step Spatial Reasoning?
March 25, 2025
Autores: Kexian Tang, Junyao Gao, Yanhong Zeng, Haodong Duan, Yanan Sun, Zhening Xing, Wenran Liu, Kaifeng Lyu, Kai Chen
cs.AI
Resumen
El razonamiento espacial multi-paso implica comprender y razonar sobre relaciones espaciales a través de múltiples pasos secuenciales, lo cual es crucial para abordar aplicaciones complejas del mundo real, como la manipulación robótica, la navegación autónoma y el ensamblaje automatizado. Para evaluar qué tan bien los Modelos de Lenguaje Multimodal de Gran Escala (MLLMs, por sus siglas en inglés) actuales han adquirido esta capacidad fundamental, presentamos LEGO-Puzzles, un punto de referencia escalable diseñado para evaluar tanto la comprensión espacial como el razonamiento secuencial en MLLMs a través de tareas basadas en LEGO. LEGO-Puzzles consta de 1,100 muestras cuidadosamente seleccionadas de preguntas y respuestas visuales (VQA, por sus siglas en inglés) que abarcan 11 tareas distintas, desde la comprensión espacial básica hasta el razonamiento multi-paso complejo. Basándonos en LEGO-Puzzles, realizamos una evaluación exhaustiva de los MLLMs más avanzados y descubrimos limitaciones significativas en sus capacidades de razonamiento espacial: incluso los MLLMs más potentes solo pueden responder aproximadamente la mitad de los casos de prueba, mientras que los participantes humanos logran una precisión superior al 90%. Además de las tareas VQA, evaluamos las habilidades de los MLLMs para generar imágenes de LEGO siguiendo ilustraciones de ensamblaje. Nuestros experimentos muestran que solo Gemini-2.0-Flash y GPT-4o exhiben una capacidad limitada para seguir estas instrucciones, mientras que otros MLLMs replican la imagen de entrada o generan resultados completamente irrelevantes. En general, LEGO-Puzzles expone deficiencias críticas en la comprensión espacial y las capacidades de razonamiento secuencial de los MLLMs existentes, y subraya la necesidad de avances adicionales en el razonamiento espacial multimodal.
English
Multi-step spatial reasoning entails understanding and reasoning about
spatial relationships across multiple sequential steps, which is crucial for
tackling complex real-world applications, such as robotic manipulation,
autonomous navigation, and automated assembly. To assess how well current
Multimodal Large Language Models (MLLMs) have acquired this fundamental
capability, we introduce LEGO-Puzzles, a scalable benchmark designed
to evaluate both spatial understanding and sequential
reasoning in MLLMs through LEGO-based tasks. LEGO-Puzzles consists of 1,100
carefully curated visual question-answering (VQA) samples spanning 11 distinct
tasks, ranging from basic spatial understanding to complex multi-step
reasoning. Based on LEGO-Puzzles, we conduct a comprehensive evaluation of
state-of-the-art MLLMs and uncover significant limitations in their spatial
reasoning capabilities: even the most powerful MLLMs can answer only about half
of the test cases, whereas human participants achieve over 90\% accuracy. In
addition to VQA tasks, we evaluate MLLMs' abilities to generate LEGO images
following assembly illustrations. Our experiments show that only
Gemini-2.0-Flash and GPT-4o exhibit a limited ability to follow these
instructions, while other MLLMs either replicate the input image or generate
completely irrelevant outputs. Overall, LEGO-Puzzles exposes critical
deficiencies in existing MLLMs' spatial understanding and sequential reasoning
capabilities, and underscores the need for further advancements in multimodal
spatial reasoning.Summary
AI-Generated Summary