ChatPaper.aiChatPaper

MM-IQ: Benchmarking menschenähnliche Abstraktion und Schlussfolgerung in multimodalen Modellen

MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models

February 2, 2025
Autoren: Huanqia Cai, Yijun Yang, Winston Hu
cs.AI

Zusammenfassung

IQ-Tests haben als grundlegende Methodik gedient, um die kognitiven Fähigkeiten des Menschen zu bewerten, indem die Bewertung bewusst von sprachlichem Hintergrund, Sprachkenntnissen oder domänenspezifischem Wissen entkoppelt wurde, um Kernkompetenzen in Abstraktion und Schlussfolgerung zu isolieren. Dennoch fehlen derzeit in der Forschung zur künstlichen Intelligenz systematische Benchmarks, um diese kritischen kognitiven Dimensionen in multimodalen Systemen zu quantifizieren. Um diese Lücke zu schließen, schlagen wir MM-IQ vor, ein umfassendes Bewertungsframework, das 2.710 sorgfältig ausgewählte Testelemente umfasst, die 8 verschiedene Schlussfolgerungsparadigmen abdecken. Durch die systematische Bewertung führender Open-Source- und proprietärer multimodaler Modelle zeigt unser Benchmark deutliche Einschränkungen auf: Selbst modernste Architekturen erreichen nur geringfügig bessere Leistungen als der Zufall (27,49 % gegenüber einer Baseline-Genauigkeit von 25 %). Dieser erhebliche Leistungsunterschied verdeutlicht die Unzulänglichkeit aktueller multimodaler Systeme bei der Annäherung an grundlegende menschliche Schlussfolgerungsfähigkeiten und unterstreicht die Notwendigkeit für wegweisende Fortschritte, um diese kognitive Kluft zu überbrücken.
English
IQ testing has served as a foundational methodology for evaluating human cognitive capabilities, deliberately decoupling assessment from linguistic background, language proficiency, or domain-specific knowledge to isolate core competencies in abstraction and reasoning. Yet, artificial intelligence research currently lacks systematic benchmarks to quantify these critical cognitive dimensions in multimodal systems. To address this critical gap, we propose MM-IQ, a comprehensive evaluation framework comprising 2,710 meticulously curated test items spanning 8 distinct reasoning paradigms. Through systematic evaluation of leading open-source and proprietary multimodal models, our benchmark reveals striking limitations: even state-of-the-art architectures achieve only marginally superior performance to random chance (27.49% vs. 25% baseline accuracy). This substantial performance chasm highlights the inadequacy of current multimodal systems in approximating fundamental human reasoning capacities, underscoring the need for paradigm-shifting advancements to bridge this cognitive divide.

Summary

AI-Generated Summary

PDF242February 4, 2025