MM-IQ: Evaluación de la Abstracción y el Razonamiento Humanos en Modelos Multimodales
MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models
February 2, 2025
Autores: Huanqia Cai, Yijun Yang, Winston Hu
cs.AI
Resumen
Las pruebas de coeficiente intelectual han servido como una metodología fundamental para evaluar las capacidades cognitivas humanas, separando deliberadamente la evaluación del trasfondo lingüístico, la competencia lingüística o el conocimiento específico del dominio para aislar las competencias centrales en abstracción y razonamiento. Sin embargo, la investigación en inteligencia artificial carece actualmente de puntos de referencia sistemáticos para cuantificar estas dimensiones cognitivas críticas en sistemas multimodales. Para abordar esta brecha crítica, proponemos MM-IQ, un marco de evaluación integral que comprende 2,710 elementos de prueba meticulosamente seleccionados que abarcan 8 paradigmas de razonamiento distintos.
A través de la evaluación sistemática de los principales modelos multimodales de código abierto y propietarios, nuestro punto de referencia revela limitaciones sorprendentes: incluso las arquitecturas de vanguardia solo logran un rendimiento ligeramente superior al azar (27.49% frente al 25% de precisión base). Este considerable abismo de rendimiento destaca la insuficiencia de los sistemas multimodales actuales para aproximar las capacidades de razonamiento humanas fundamentales, subrayando la necesidad de avances que cambien paradigmas para cerrar esta brecha cognitiva.
English
IQ testing has served as a foundational methodology for evaluating human
cognitive capabilities, deliberately decoupling assessment from linguistic
background, language proficiency, or domain-specific knowledge to isolate core
competencies in abstraction and reasoning. Yet, artificial intelligence
research currently lacks systematic benchmarks to quantify these critical
cognitive dimensions in multimodal systems. To address this critical gap, we
propose MM-IQ, a comprehensive evaluation framework comprising 2,710
meticulously curated test items spanning 8 distinct reasoning paradigms.
Through systematic evaluation of leading open-source and proprietary
multimodal models, our benchmark reveals striking limitations: even
state-of-the-art architectures achieve only marginally superior performance to
random chance (27.49% vs. 25% baseline accuracy). This substantial performance
chasm highlights the inadequacy of current multimodal systems in approximating
fundamental human reasoning capacities, underscoring the need for
paradigm-shifting advancements to bridge this cognitive divide.Summary
AI-Generated Summary