Occhio della Mente: Un Benchmark di Astrazione Visiva, Trasformazione e Composizione per Modelli Linguistici Multimodali

Abstract

I modelli linguistici multimodali (MLLM) hanno ottenuto progressi impressionanti nei benchmark di linguaggio visivo, ma la loro capacità di ragionamento visivo-cognitivo e visuospaziale rimane meno compresa. Presentiamo "Mind's Eye", un benchmark a scelta multipla composto da otto compiti visuo-cognitivi ispirati a classici test di intelligenza umana e organizzati secondo una nuova tassonomia "A-R-T": Astrazione, Relazione e Trasformazione. I compiti indagano processi fondamentali dell'intelligenza fluida come l'induzione di pattern, il mapping di relazioni analogiche e la trasformazione mentale. Valutiamo una serie diversificata di MLLM open-source e proprietari e confrontiamo le loro prestazioni con quelle di partecipanti umani. Gli esseri umani raggiungono un'accuratezza dell'80%, mentre i migliori MLLM si attestano sotto il 50%. L'analisi degli errori rivale carenze in: (i) l'allocazione dell'attenzione visiva, (ii) la manipolazione percettiva interna, e (iii) la debole astrazione dei concetti visivi sottostanti. I nostri risultati suggeriscono che gli attuali MLLM mostrano capacità di ragionamento visuospaziale limitate rispetto ai partecipanti umani, evidenziando la necessità di framework di valutazione più ancorati alla cognizione.

English

Multimodal large language models (MLLMs) have achieved impressive progress on vision language benchmarks, yet their capacity for visual cognitive and visuospatial reasoning remains less understood. We introduce "Mind's Eye", a multiple-choice benchmark of eight visuo-cognitive tasks inspired by classic human intelligence tests and organized under a novel "A-R-T" taxonomy: Abstraction, Relation, and Transformation. The tasks probe core processes of fluid intelligence such as pattern induction, analogical relation mapping, and mental transformation. We evaluate a diverse suite of closed-source and open-source MLLMs and compare their performance with human participants. Humans achieve 80% accuracy, while top performing MLLMs remain below 50%. Error analysis reveals failures in: (i) visual attention allocation, (ii) internal perceptual manipulation, and (iii) weak abstraction of underlying visual concepts. Our findings suggest that current MLLMs exhibit limited visuospatial reasoning capabilities, when compared with human participants, highlighting the need for more cognitively grounded evaluation frameworks.

Occhio della Mente: Un Benchmark di Astrazione Visiva, Trasformazione e Composizione per Modelli Linguistici Multimodali

Mind's Eye: A Benchmark of Visual Abstraction, Transformation and Composition for Multimodal LLMs

Abstract

Support