Œil de l'esprit : un benchmark d'abstraction, de transformation et de composition visuelles pour les modèles de langage multimodaux

Résumé

Les modèles de traitement du langage multimodal (MLLM) ont réalisé des progrès impressionnants sur les benchmarks de vision par ordinateur et langage, mais leurs capacités en matière de raisonnement visuo-cognitif et visuo-spatial restent mal comprises. Nous présentons "Mind's Eye", un benchmark à choix multiples comprenant huit tâches visuo-cognitives inspirées de tests classiques d'intelligence humaine et organisées selon une nouvelle taxonomie "A-R-T" : Abstraction, Relation et Transformation. Ces tâges sondent les processus fondamentaux de l'intelligence fluide tels que l'induction de motifs, la mise en correspondance de relations analogiques et la transformation mentale. Nous évaluons une série diversifiée de MLLM propriétaires et open-source, et comparons leurs performances à celles de participants humains. Les humains atteignent une précision de 80 %, tandis que les meilleurs MLLM restent en dessous de 50 %. L'analyse des erreurs révèle des échecs dans : (i) l'allocation de l'attention visuelle, (ii) la manipulation perceptuelle interne, et (iii) une faible abstraction des concepts visuels sous-jacents. Nos résultats suggèrent que les MLLM actuels présentent des capacités limitées en raisonnement visuo-spatial par rapport aux participants humains, soulignant la nécessité de cadres d'évaluation plus ancrés dans la cognition.

English

Multimodal large language models (MLLMs) have achieved impressive progress on vision language benchmarks, yet their capacity for visual cognitive and visuospatial reasoning remains less understood. We introduce "Mind's Eye", a multiple-choice benchmark of eight visuo-cognitive tasks inspired by classic human intelligence tests and organized under a novel "A-R-T" taxonomy: Abstraction, Relation, and Transformation. The tasks probe core processes of fluid intelligence such as pattern induction, analogical relation mapping, and mental transformation. We evaluate a diverse suite of closed-source and open-source MLLMs and compare their performance with human participants. Humans achieve 80% accuracy, while top performing MLLMs remain below 50%. Error analysis reveals failures in: (i) visual attention allocation, (ii) internal perceptual manipulation, and (iii) weak abstraction of underlying visual concepts. Our findings suggest that current MLLMs exhibit limited visuospatial reasoning capabilities, when compared with human participants, highlighting the need for more cognitively grounded evaluation frameworks.

Œil de l'esprit : un benchmark d'abstraction, de transformation et de composition visuelles pour les modèles de langage multimodaux

Mind's Eye: A Benchmark of Visual Abstraction, Transformation and Composition for Multimodal LLMs

Résumé

Support