Ojo de la Mente: Un Punto de Referencia para la Abstracción, Transformación y Composición Visual en Modelos de Lenguaje Multimodales

Resumen

Los modelos lingüísticos multimodales (MLLMs) han logrado avances impresionantes en benchmarks de lenguaje visual, pero su capacidad para el razonamiento cognitivo visual y visuoespacial sigue siendo menos comprendida. Presentamos "Mind's Eye", un benchmark de opción múltiple que comprende ocho tareas visuo-cognitivas inspiradas en tests clásicos de inteligencia humana y organizadas bajo una novedosa taxonomía "A-R-T": Abstracción, Relación y Transformación. Las tareas exploran procesos centrales de la inteligencia fluida como la inducción de patrones, el mapeo de relaciones analógicas y la transformación mental. Evaluamos un conjunto diverso de MLLMs de código cerrado y abierto, y comparamos su rendimiento con participantes humanos. Los humanos alcanzan un 80% de precisión, mientras que los mejores MLLMs se mantienen por debajo del 50%. El análisis de errores revela fallos en: (i) la asignación de atención visual, (ii) la manipulación perceptual interna, y (iii) la abstracción débil de conceptos visuales subyacentes. Nuestros hallazgos sugieren que los MLLMs actuales exhiben capacidades limitadas de razonamiento visuoespacial en comparación con los participantes humanos, lo que subraya la necesidad de marcos de evaluación más fundamentados en la cognición.

English

Multimodal large language models (MLLMs) have achieved impressive progress on vision language benchmarks, yet their capacity for visual cognitive and visuospatial reasoning remains less understood. We introduce "Mind's Eye", a multiple-choice benchmark of eight visuo-cognitive tasks inspired by classic human intelligence tests and organized under a novel "A-R-T" taxonomy: Abstraction, Relation, and Transformation. The tasks probe core processes of fluid intelligence such as pattern induction, analogical relation mapping, and mental transformation. We evaluate a diverse suite of closed-source and open-source MLLMs and compare their performance with human participants. Humans achieve 80% accuracy, while top performing MLLMs remain below 50%. Error analysis reveals failures in: (i) visual attention allocation, (ii) internal perceptual manipulation, and (iii) weak abstraction of underlying visual concepts. Our findings suggest that current MLLMs exhibit limited visuospatial reasoning capabilities, when compared with human participants, highlighting the need for more cognitively grounded evaluation frameworks.

Ojo de la Mente: Un Punto de Referencia para la Abstracción, Transformación y Composición Visual en Modelos de Lenguaje Multimodales

Mind's Eye: A Benchmark of Visual Abstraction, Transformation and Composition for Multimodal LLMs

Resumen

Support