MM-IQ: Оценка абстракции и рассуждений, аналогичных человеческим, в мультимодальных моделях
MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models
February 2, 2025
Авторы: Huanqia Cai, Yijun Yang, Winston Hu
cs.AI
Аннотация
Тестирование IQ служит основным методом оценки когнитивных способностей человека, целенаправленно отделяя оценку от языкового фона, владения языком или знаний в определенной области, чтобы выделить основные компетенции в абстракции и рассуждениях. Однако исследования в области искусственного интеллекта в настоящее время лишены систематических бенчмарков для количественной оценки этих критических когнитивных измерений в мультимодальных системах. Для устранения этого критического пробела мы предлагаем MM-IQ, комплексную систему оценки, включающую 2 710 тщательно подобранных тестовых заданий, охватывающих 8 различных парадигм рассуждений.
Путем систематической оценки ведущих моделей мультимодальности с открытым исходным кодом и собственных моделей наш бенчмарк показывает значительные ограничения: даже современные архитектуры достигают лишь незначительно более высокой производительности по сравнению со случайным выбором (27,49% против базовой точности 25%). Этот значительный разрыв в производительности подчеркивает недостаточность текущих мультимодальных систем в приближении к фундаментальным когнитивным способностям человека, подчеркивая необходимость перспективных достижений для преодоления этого когнитивного разрыва.
English
IQ testing has served as a foundational methodology for evaluating human
cognitive capabilities, deliberately decoupling assessment from linguistic
background, language proficiency, or domain-specific knowledge to isolate core
competencies in abstraction and reasoning. Yet, artificial intelligence
research currently lacks systematic benchmarks to quantify these critical
cognitive dimensions in multimodal systems. To address this critical gap, we
propose MM-IQ, a comprehensive evaluation framework comprising 2,710
meticulously curated test items spanning 8 distinct reasoning paradigms.
Through systematic evaluation of leading open-source and proprietary
multimodal models, our benchmark reveals striking limitations: even
state-of-the-art architectures achieve only marginally superior performance to
random chance (27.49% vs. 25% baseline accuracy). This substantial performance
chasm highlights the inadequacy of current multimodal systems in approximating
fundamental human reasoning capacities, underscoring the need for
paradigm-shifting advancements to bridge this cognitive divide.Summary
AI-Generated Summary