MM-IQ: Valutazione delle capacità di astrazione e ragionamento simili a quelli umani nei modelli multimodali

Abstract

Il testing del QI ha funzionato come metodologia fondamentale per valutare le capacità cognitive umane, deliberatamente separando la valutazione dal background linguistico, dalla competenza linguistica o dalla conoscenza specifica del dominio per isolare le competenze di base nell'astrazione e nel ragionamento. Tuttavia, la ricerca sull'intelligenza artificiale attualmente manca di benchmark sistemici per quantificare queste dimensioni cognitive critiche nei sistemi multimodali. Per affrontare questa lacuna critica, proponiamo MM-IQ, un quadro di valutazione completo che comprende 2.710 elementi di test accuratamente selezionati che spaziano su 8 paradigmi di ragionamento distinti. Attraverso la valutazione sistematica dei principali modelli multimodali open-source e proprietari, il nostro benchmark rivela limitazioni sorprendenti: anche le architetture all'avanguardia raggiungono solo prestazioni leggermente superiori alla casualità (27,49% rispetto al 25% di accuratezza di base). Questo significativo divario nelle prestazioni mette in luce l'inadeguatezza dei sistemi multimodali attuali nell'approssimare le capacità di ragionamento umano fondamentali, sottolineando la necessità di progressi rivoluzionari per colmare questa divisione cognitiva.

English

IQ testing has served as a foundational methodology for evaluating human cognitive capabilities, deliberately decoupling assessment from linguistic background, language proficiency, or domain-specific knowledge to isolate core competencies in abstraction and reasoning. Yet, artificial intelligence research currently lacks systematic benchmarks to quantify these critical cognitive dimensions in multimodal systems. To address this critical gap, we propose MM-IQ, a comprehensive evaluation framework comprising 2,710 meticulously curated test items spanning 8 distinct reasoning paradigms. Through systematic evaluation of leading open-source and proprietary multimodal models, our benchmark reveals striking limitations: even state-of-the-art architectures achieve only marginally superior performance to random chance (27.49% vs. 25% baseline accuracy). This substantial performance chasm highlights the inadequacy of current multimodal systems in approximating fundamental human reasoning capacities, underscoring the need for paradigm-shifting advancements to bridge this cognitive divide.

MM-IQ: Valutazione delle capacità di astrazione e ragionamento simili a quelli umani nei modelli multimodali

MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models

Abstract

Support