MM-IQ: Evaluación de la Abstracción y el Razonamiento Humanos en Modelos Multimodales

Resumen

Las pruebas de coeficiente intelectual han servido como una metodología fundamental para evaluar las capacidades cognitivas humanas, separando deliberadamente la evaluación del trasfondo lingüístico, la competencia lingüística o el conocimiento específico del dominio para aislar las competencias centrales en abstracción y razonamiento. Sin embargo, la investigación en inteligencia artificial carece actualmente de puntos de referencia sistemáticos para cuantificar estas dimensiones cognitivas críticas en sistemas multimodales. Para abordar esta brecha crítica, proponemos MM-IQ, un marco de evaluación integral que comprende 2,710 elementos de prueba meticulosamente seleccionados que abarcan 8 paradigmas de razonamiento distintos. A través de la evaluación sistemática de los principales modelos multimodales de código abierto y propietarios, nuestro punto de referencia revela limitaciones sorprendentes: incluso las arquitecturas de vanguardia solo logran un rendimiento ligeramente superior al azar (27.49% frente al 25% de precisión base). Este considerable abismo de rendimiento destaca la insuficiencia de los sistemas multimodales actuales para aproximar las capacidades de razonamiento humanas fundamentales, subrayando la necesidad de avances que cambien paradigmas para cerrar esta brecha cognitiva.

English

IQ testing has served as a foundational methodology for evaluating human cognitive capabilities, deliberately decoupling assessment from linguistic background, language proficiency, or domain-specific knowledge to isolate core competencies in abstraction and reasoning. Yet, artificial intelligence research currently lacks systematic benchmarks to quantify these critical cognitive dimensions in multimodal systems. To address this critical gap, we propose MM-IQ, a comprehensive evaluation framework comprising 2,710 meticulously curated test items spanning 8 distinct reasoning paradigms. Through systematic evaluation of leading open-source and proprietary multimodal models, our benchmark reveals striking limitations: even state-of-the-art architectures achieve only marginally superior performance to random chance (27.49% vs. 25% baseline accuracy). This substantial performance chasm highlights the inadequacy of current multimodal systems in approximating fundamental human reasoning capacities, underscoring the need for paradigm-shifting advancements to bridge this cognitive divide.

MM-IQ: Evaluación de la Abstracción y el Razonamiento Humanos en Modelos Multimodales

MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models

Resumen

Support