ChatPaper.aiChatPaper

LEGO-Puzzels: Hoe Presteren MLLMs bij Meerstaps Ruimtelijk Redeneren?

LEGO-Puzzles: How Good Are MLLMs at Multi-Step Spatial Reasoning?

March 25, 2025
Auteurs: Kexian Tang, Junyao Gao, Yanhong Zeng, Haodong Duan, Yanan Sun, Zhening Xing, Wenran Liu, Kaifeng Lyu, Kai Chen
cs.AI

Samenvatting

Meerstaps ruimtelijk redeneren omvat het begrijpen en redeneren over ruimtelijke relaties over meerdere opeenvolgende stappen, wat cruciaal is voor het aanpakken van complexe real-world toepassingen, zoals robotmanipulatie, autonome navigatie en geautomatiseerde assemblage. Om te beoordelen in hoeverre huidige Multimodale Grote Taalmodellen (MLLMs) deze fundamentele vaardigheid hebben verworven, introduceren we LEGO-Puzzels, een schaalbare benchmark ontworpen om zowel ruimtelijk begrip als sequentieel redeneren in MLLMs te evalueren via LEGO-gebaseerde taken. LEGO-Puzzels bestaat uit 1.100 zorgvuldig samengestelde visuele vraag-antwoord (VQA) voorbeelden, verdeeld over 11 verschillende taken, variërend van basis ruimtelijk begrip tot complex meerstaps redeneren. Op basis van LEGO-Puzzels voeren we een uitgebreide evaluatie uit van state-of-the-art MLLMs en ontdekken we significante beperkingen in hun ruimtelijke redeneervaardigheden: zelfs de krachtigste MLLMs kunnen slechts ongeveer de helft van de testgevallen correct beantwoorden, terwijl menselijke deelnemers een nauwkeurigheid van meer dan 90% behalen. Naast VQA-taken evalueren we ook de vaardigheden van MLLMs om LEGO-afbeeldingen te genereren aan de hand van montage-illustraties. Onze experimenten tonen aan dat alleen Gemini-2.0-Flash en GPT-4o een beperkt vermogen hebben om deze instructies te volgen, terwijl andere MLLMs ofwel de invoerafbeelding repliceren of volledig irrelevante uitvoer genereren. Over het geheel genomen legt LEGO-Puzzels kritieke tekortkomingen bloot in het ruimtelijk begrip en sequentiële redeneervermogen van bestaande MLLMs, en benadrukt het de noodzaak van verdere vooruitgang in multimodaal ruimtelijk redeneren.
English
Multi-step spatial reasoning entails understanding and reasoning about spatial relationships across multiple sequential steps, which is crucial for tackling complex real-world applications, such as robotic manipulation, autonomous navigation, and automated assembly. To assess how well current Multimodal Large Language Models (MLLMs) have acquired this fundamental capability, we introduce LEGO-Puzzles, a scalable benchmark designed to evaluate both spatial understanding and sequential reasoning in MLLMs through LEGO-based tasks. LEGO-Puzzles consists of 1,100 carefully curated visual question-answering (VQA) samples spanning 11 distinct tasks, ranging from basic spatial understanding to complex multi-step reasoning. Based on LEGO-Puzzles, we conduct a comprehensive evaluation of state-of-the-art MLLMs and uncover significant limitations in their spatial reasoning capabilities: even the most powerful MLLMs can answer only about half of the test cases, whereas human participants achieve over 90\% accuracy. In addition to VQA tasks, we evaluate MLLMs' abilities to generate LEGO images following assembly illustrations. Our experiments show that only Gemini-2.0-Flash and GPT-4o exhibit a limited ability to follow these instructions, while other MLLMs either replicate the input image or generate completely irrelevant outputs. Overall, LEGO-Puzzles exposes critical deficiencies in existing MLLMs' spatial understanding and sequential reasoning capabilities, and underscores the need for further advancements in multimodal spatial reasoning.

Summary

AI-Generated Summary

PDF342March 27, 2025