ChatPaper.aiChatPaper

MM-IQ : Évaluation de l'abstraction et du raisonnement de type humain dans les modèles multimodaux

MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models

February 2, 2025
Auteurs: Huanqia Cai, Yijun Yang, Winston Hu
cs.AI

Résumé

Les tests de QI ont servi de méthodologie fondamentale pour évaluer les capacités cognitives humaines, en dissociant délibérément l'évaluation du contexte linguistique, de la maîtrise de la langue ou des connaissances spécifiques au domaine pour isoler les compétences de base en abstraction et en raisonnement. Pourtant, la recherche en intelligence artificielle manque actuellement de références systématiques pour quantifier ces dimensions cognitives critiques dans les systèmes multimodaux. Pour combler cette lacune cruciale, nous proposons MM-IQ, un cadre d'évaluation complet comprenant 2 710 éléments de test méticuleusement sélectionnés couvrant 8 paradigmes de raisonnement distincts. En évaluant systématiquement les principaux modèles multimodaux open source et propriétaires, notre référentiel révèle des limitations frappantes : même les architectures de pointe n'atteignent qu'une performance légèrement supérieure au hasard (27,49 % contre 25 % de précision de base). Ce fossé de performance substantiel souligne l'insuffisance des systèmes multimodaux actuels pour approximer les capacités de raisonnement humain fondamentales, soulignant la nécessité de progrès révolutionnaires pour combler cette division cognitive.
English
IQ testing has served as a foundational methodology for evaluating human cognitive capabilities, deliberately decoupling assessment from linguistic background, language proficiency, or domain-specific knowledge to isolate core competencies in abstraction and reasoning. Yet, artificial intelligence research currently lacks systematic benchmarks to quantify these critical cognitive dimensions in multimodal systems. To address this critical gap, we propose MM-IQ, a comprehensive evaluation framework comprising 2,710 meticulously curated test items spanning 8 distinct reasoning paradigms. Through systematic evaluation of leading open-source and proprietary multimodal models, our benchmark reveals striking limitations: even state-of-the-art architectures achieve only marginally superior performance to random chance (27.49% vs. 25% baseline accuracy). This substantial performance chasm highlights the inadequacy of current multimodal systems in approximating fundamental human reasoning capacities, underscoring the need for paradigm-shifting advancements to bridge this cognitive divide.

Summary

AI-Generated Summary

PDF242February 4, 2025