Das innere Auge: Ein Benchmark für visuelle Abstraktion, Transformation und Komposition bei multimodalen LLMs

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) haben beeindruckende Fortschritte bei Vision-Language-Benchmarks erzielt, doch ihre Fähigkeiten zur visuell-kognitiven und visuell-räumlichen Reasoning bleiben weniger verstanden. Wir stellen "Mind's Eye" vor, einen Multiple-Choice-Benchmark mit acht visuell-kognitiven Aufgaben, die von klassischen menschlichen Intelligenztests inspiriert und nach einer neuartigen "A-R-T"-Taxonomie strukturiert sind: Abstraktion, Relation und Transformation. Die Aufgaben untersuchen Kernprozesse der fluiden Intelligenz wie Musterinduktion, analogische Relationszuordnung und mentale Transformation. Wir evaluieren eine diverse Reihe von Closed-Source- und Open-Source-MLLMs und vergleichen ihre Leistung mit der menschlicher Teilnehmer. Menschen erreichen eine Genauigkeit von 80 %, während die besten MLLMs unter 50 % bleiben. Fehleranalysen zeigen Defizite in: (i) der Allokation visueller Aufmerksamkeit, (ii) interner perzeptueller Manipulation und (iii) schwacher Abstraktion zugrundeliegender visueller Konzepte. Unsere Ergebnisse deuten darauf hin, dass aktuelle MLLMs im Vergleich zu menschlichen Teilnehmern eingeschränkte visuell-räumliche Reasoning-Fähigkeiten aufweisen, was den Bedarf an kognitiv fundierteren Evaluierungsrahmen unterstreicht.

English

Multimodal large language models (MLLMs) have achieved impressive progress on vision language benchmarks, yet their capacity for visual cognitive and visuospatial reasoning remains less understood. We introduce "Mind's Eye", a multiple-choice benchmark of eight visuo-cognitive tasks inspired by classic human intelligence tests and organized under a novel "A-R-T" taxonomy: Abstraction, Relation, and Transformation. The tasks probe core processes of fluid intelligence such as pattern induction, analogical relation mapping, and mental transformation. We evaluate a diverse suite of closed-source and open-source MLLMs and compare their performance with human participants. Humans achieve 80% accuracy, while top performing MLLMs remain below 50%. Error analysis reveals failures in: (i) visual attention allocation, (ii) internal perceptual manipulation, and (iii) weak abstraction of underlying visual concepts. Our findings suggest that current MLLMs exhibit limited visuospatial reasoning capabilities, when compared with human participants, highlighting the need for more cognitively grounded evaluation frameworks.

Das innere Auge: Ein Benchmark für visuelle Abstraktion, Transformation und Komposition bei multimodalen LLMs

Mind's Eye: A Benchmark of Visual Abstraction, Transformation and Composition for Multimodal LLMs

Zusammenfassung

Support