MM-IQ: Valutazione delle capacità di astrazione e ragionamento simili a quelli umani nei modelli multimodali
MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models
February 2, 2025
Autori: Huanqia Cai, Yijun Yang, Winston Hu
cs.AI
Abstract
Il testing del QI ha funzionato come metodologia fondamentale per valutare le capacità cognitive umane, deliberatamente separando la valutazione dal background linguistico, dalla competenza linguistica o dalla conoscenza specifica del dominio per isolare le competenze di base nell'astrazione e nel ragionamento. Tuttavia, la ricerca sull'intelligenza artificiale attualmente manca di benchmark sistemici per quantificare queste dimensioni cognitive critiche nei sistemi multimodali. Per affrontare questa lacuna critica, proponiamo MM-IQ, un quadro di valutazione completo che comprende 2.710 elementi di test accuratamente selezionati che spaziano su 8 paradigmi di ragionamento distinti.
Attraverso la valutazione sistematica dei principali modelli multimodali open-source e proprietari, il nostro benchmark rivela limitazioni sorprendenti: anche le architetture all'avanguardia raggiungono solo prestazioni leggermente superiori alla casualità (27,49% rispetto al 25% di accuratezza di base). Questo significativo divario nelle prestazioni mette in luce l'inadeguatezza dei sistemi multimodali attuali nell'approssimare le capacità di ragionamento umano fondamentali, sottolineando la necessità di progressi rivoluzionari per colmare questa divisione cognitiva.
English
IQ testing has served as a foundational methodology for evaluating human
cognitive capabilities, deliberately decoupling assessment from linguistic
background, language proficiency, or domain-specific knowledge to isolate core
competencies in abstraction and reasoning. Yet, artificial intelligence
research currently lacks systematic benchmarks to quantify these critical
cognitive dimensions in multimodal systems. To address this critical gap, we
propose MM-IQ, a comprehensive evaluation framework comprising 2,710
meticulously curated test items spanning 8 distinct reasoning paradigms.
Through systematic evaluation of leading open-source and proprietary
multimodal models, our benchmark reveals striking limitations: even
state-of-the-art architectures achieve only marginally superior performance to
random chance (27.49% vs. 25% baseline accuracy). This substantial performance
chasm highlights the inadequacy of current multimodal systems in approximating
fundamental human reasoning capacities, underscoring the need for
paradigm-shifting advancements to bridge this cognitive divide.Summary
AI-Generated Summary