Olho da Mente: Um Benchmark de Abstração, Transformação e Composição Visual para MLLMs Multimodais

Resumo

Os modelos multimodais de linguagem de grande escala (MLLMs) alcançaram progressos impressionantes em benchmarks de linguagem visual, mas a sua capacidade para o raciocínio cognitivo visual e visuoespacial permanece menos compreendida. Apresentamos "Mind's Eye", um benchmark de múltipla escolha composto por oito tarefas visuo-cognitivas inspiradas em testes clássicos de inteligência humana e organizadas sob uma nova taxonomia "A-R-T": Abstração, Relação e Transformação. As tarefas investigam processos centrais da inteligência fluida, como indução de padrões, mapeamento de relações analógicas e transformação mental. Avaliamos um conjunto diversificado de MLLMs de código fechado e aberto e comparamos o seu desempenho com participantes humanos. Os humanos atingem 80% de precisão, enquanto os MLLMs de melhor desempenho permanecem abaixo de 50%. A análise de erros revela falhas em: (i) alocação da atenção visual, (ii) manipulação perceptual interna e (iii) fraca abstração de conceitos visuais subjacentes. As nossas descobertas sugerem que os MLLMs atuais exibem capacidades limitadas de raciocínio visuoespacial quando comparados com participantes humanos, destacando a necessidade de estruturas de avaliação mais fundamentadas cognitivamente.

English

Multimodal large language models (MLLMs) have achieved impressive progress on vision language benchmarks, yet their capacity for visual cognitive and visuospatial reasoning remains less understood. We introduce "Mind's Eye", a multiple-choice benchmark of eight visuo-cognitive tasks inspired by classic human intelligence tests and organized under a novel "A-R-T" taxonomy: Abstraction, Relation, and Transformation. The tasks probe core processes of fluid intelligence such as pattern induction, analogical relation mapping, and mental transformation. We evaluate a diverse suite of closed-source and open-source MLLMs and compare their performance with human participants. Humans achieve 80% accuracy, while top performing MLLMs remain below 50%. Error analysis reveals failures in: (i) visual attention allocation, (ii) internal perceptual manipulation, and (iii) weak abstraction of underlying visual concepts. Our findings suggest that current MLLMs exhibit limited visuospatial reasoning capabilities, when compared with human participants, highlighting the need for more cognitively grounded evaluation frameworks.

Olho da Mente: Um Benchmark de Abstração, Transformação e Composição Visual para MLLMs Multimodais

Mind's Eye: A Benchmark of Visual Abstraction, Transformation and Composition for Multimodal LLMs

Resumo

Support