MM-IQ : Évaluation de l'abstraction et du raisonnement de type humain dans les modèles multimodaux
MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models
February 2, 2025
Auteurs: Huanqia Cai, Yijun Yang, Winston Hu
cs.AI
Résumé
Les tests de QI ont servi de méthodologie fondamentale pour évaluer les capacités cognitives humaines, en dissociant délibérément l'évaluation du contexte linguistique, de la maîtrise de la langue ou des connaissances spécifiques au domaine pour isoler les compétences de base en abstraction et en raisonnement. Pourtant, la recherche en intelligence artificielle manque actuellement de références systématiques pour quantifier ces dimensions cognitives critiques dans les systèmes multimodaux. Pour combler cette lacune cruciale, nous proposons MM-IQ, un cadre d'évaluation complet comprenant 2 710 éléments de test méticuleusement sélectionnés couvrant 8 paradigmes de raisonnement distincts.
En évaluant systématiquement les principaux modèles multimodaux open source et propriétaires, notre référentiel révèle des limitations frappantes : même les architectures de pointe n'atteignent qu'une performance légèrement supérieure au hasard (27,49 % contre 25 % de précision de base). Ce fossé de performance substantiel souligne l'insuffisance des systèmes multimodaux actuels pour approximer les capacités de raisonnement humain fondamentales, soulignant la nécessité de progrès révolutionnaires pour combler cette division cognitive.
English
IQ testing has served as a foundational methodology for evaluating human
cognitive capabilities, deliberately decoupling assessment from linguistic
background, language proficiency, or domain-specific knowledge to isolate core
competencies in abstraction and reasoning. Yet, artificial intelligence
research currently lacks systematic benchmarks to quantify these critical
cognitive dimensions in multimodal systems. To address this critical gap, we
propose MM-IQ, a comprehensive evaluation framework comprising 2,710
meticulously curated test items spanning 8 distinct reasoning paradigms.
Through systematic evaluation of leading open-source and proprietary
multimodal models, our benchmark reveals striking limitations: even
state-of-the-art architectures achieve only marginally superior performance to
random chance (27.49% vs. 25% baseline accuracy). This substantial performance
chasm highlights the inadequacy of current multimodal systems in approximating
fundamental human reasoning capacities, underscoring the need for
paradigm-shifting advancements to bridge this cognitive divide.Summary
AI-Generated Summary