Mind's Eye: Een benchmark voor visuele abstractie, transformatie en compositie voor multimodale LLM's

Samenvatting

Multimodale grote taalmodellen (MLLM's) hebben indrukwekkende vooruitgang geboekt op visie-taalbenchmarks, maar hun capaciteit voor visueel-cognitief en visueel-ruimtelijk redeneren blijft minder goed begrepen. Wij introduceren "Mind's Eye", een multiple-choice benchmark van acht visueel-cognitieve taken geïnspireerd op klassieke menselijke intelligentietests en georganiseerd onder een nieuwe "A-R-T"-taxonomie: Abstractie, Relatie en Transformatie. De taken peilen naar kernprocessen van fluïde intelligentie, zoals patrooninductie, relationeel analogieën leggen en mentale transformatie. Wij evalueren een diverse reeks closed-source en open-source MLLM's en vergelijken hun prestaties met die van menselijke deelnemers. Mensen behalen een nauwkeurigheid van 80%, terwijl de best presterende MLLM's onder de 50% blijven. Foutenanalyse onthult tekortkomingen in: (i) de allocatie van visuele aandacht, (ii) interne perceptuele manipulatie, en (iii) zwakke abstractie van onderliggende visuele concepten. Onze bevindingen suggereren dat huidige MLLM's beperkte visueel-ruimtelijke redeneercapaciteiten vertonen in vergelijking met menselijke deelnemers, wat de noodzaak benadrukt van meer cognitief onderbouwde evaluatiekaders.

English

Multimodal large language models (MLLMs) have achieved impressive progress on vision language benchmarks, yet their capacity for visual cognitive and visuospatial reasoning remains less understood. We introduce "Mind's Eye", a multiple-choice benchmark of eight visuo-cognitive tasks inspired by classic human intelligence tests and organized under a novel "A-R-T" taxonomy: Abstraction, Relation, and Transformation. The tasks probe core processes of fluid intelligence such as pattern induction, analogical relation mapping, and mental transformation. We evaluate a diverse suite of closed-source and open-source MLLMs and compare their performance with human participants. Humans achieve 80% accuracy, while top performing MLLMs remain below 50%. Error analysis reveals failures in: (i) visual attention allocation, (ii) internal perceptual manipulation, and (iii) weak abstraction of underlying visual concepts. Our findings suggest that current MLLMs exhibit limited visuospatial reasoning capabilities, when compared with human participants, highlighting the need for more cognitively grounded evaluation frameworks.

Mind's Eye: Een benchmark voor visuele abstractie, transformatie en compositie voor multimodale LLM's

Mind's Eye: A Benchmark of Visual Abstraction, Transformation and Composition for Multimodal LLMs

Samenvatting

Support