ChatPaper.aiChatPaper

MM-IQ: Оценка абстракции и рассуждений, аналогичных человеческим, в мультимодальных моделях

MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models

February 2, 2025
Авторы: Huanqia Cai, Yijun Yang, Winston Hu
cs.AI

Аннотация

Тестирование IQ служит основным методом оценки когнитивных способностей человека, целенаправленно отделяя оценку от языкового фона, владения языком или знаний в определенной области, чтобы выделить основные компетенции в абстракции и рассуждениях. Однако исследования в области искусственного интеллекта в настоящее время лишены систематических бенчмарков для количественной оценки этих критических когнитивных измерений в мультимодальных системах. Для устранения этого критического пробела мы предлагаем MM-IQ, комплексную систему оценки, включающую 2 710 тщательно подобранных тестовых заданий, охватывающих 8 различных парадигм рассуждений. Путем систематической оценки ведущих моделей мультимодальности с открытым исходным кодом и собственных моделей наш бенчмарк показывает значительные ограничения: даже современные архитектуры достигают лишь незначительно более высокой производительности по сравнению со случайным выбором (27,49% против базовой точности 25%). Этот значительный разрыв в производительности подчеркивает недостаточность текущих мультимодальных систем в приближении к фундаментальным когнитивным способностям человека, подчеркивая необходимость перспективных достижений для преодоления этого когнитивного разрыва.
English
IQ testing has served as a foundational methodology for evaluating human cognitive capabilities, deliberately decoupling assessment from linguistic background, language proficiency, or domain-specific knowledge to isolate core competencies in abstraction and reasoning. Yet, artificial intelligence research currently lacks systematic benchmarks to quantify these critical cognitive dimensions in multimodal systems. To address this critical gap, we propose MM-IQ, a comprehensive evaluation framework comprising 2,710 meticulously curated test items spanning 8 distinct reasoning paradigms. Through systematic evaluation of leading open-source and proprietary multimodal models, our benchmark reveals striking limitations: even state-of-the-art architectures achieve only marginally superior performance to random chance (27.49% vs. 25% baseline accuracy). This substantial performance chasm highlights the inadequacy of current multimodal systems in approximating fundamental human reasoning capacities, underscoring the need for paradigm-shifting advancements to bridge this cognitive divide.

Summary

AI-Generated Summary

PDF242February 4, 2025