MM-IQ: Benchmarking menschenähnliche Abstraktion und Schlussfolgerung in multimodalen Modellen
MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models
February 2, 2025
Autoren: Huanqia Cai, Yijun Yang, Winston Hu
cs.AI
Zusammenfassung
IQ-Tests haben als grundlegende Methodik gedient, um die kognitiven Fähigkeiten des Menschen zu bewerten, indem die Bewertung bewusst von sprachlichem Hintergrund, Sprachkenntnissen oder domänenspezifischem Wissen entkoppelt wurde, um Kernkompetenzen in Abstraktion und Schlussfolgerung zu isolieren. Dennoch fehlen derzeit in der Forschung zur künstlichen Intelligenz systematische Benchmarks, um diese kritischen kognitiven Dimensionen in multimodalen Systemen zu quantifizieren. Um diese Lücke zu schließen, schlagen wir MM-IQ vor, ein umfassendes Bewertungsframework, das 2.710 sorgfältig ausgewählte Testelemente umfasst, die 8 verschiedene Schlussfolgerungsparadigmen abdecken.
Durch die systematische Bewertung führender Open-Source- und proprietärer multimodaler Modelle zeigt unser Benchmark deutliche Einschränkungen auf: Selbst modernste Architekturen erreichen nur geringfügig bessere Leistungen als der Zufall (27,49 % gegenüber einer Baseline-Genauigkeit von 25 %). Dieser erhebliche Leistungsunterschied verdeutlicht die Unzulänglichkeit aktueller multimodaler Systeme bei der Annäherung an grundlegende menschliche Schlussfolgerungsfähigkeiten und unterstreicht die Notwendigkeit für wegweisende Fortschritte, um diese kognitive Kluft zu überbrücken.
English
IQ testing has served as a foundational methodology for evaluating human
cognitive capabilities, deliberately decoupling assessment from linguistic
background, language proficiency, or domain-specific knowledge to isolate core
competencies in abstraction and reasoning. Yet, artificial intelligence
research currently lacks systematic benchmarks to quantify these critical
cognitive dimensions in multimodal systems. To address this critical gap, we
propose MM-IQ, a comprehensive evaluation framework comprising 2,710
meticulously curated test items spanning 8 distinct reasoning paradigms.
Through systematic evaluation of leading open-source and proprietary
multimodal models, our benchmark reveals striking limitations: even
state-of-the-art architectures achieve only marginally superior performance to
random chance (27.49% vs. 25% baseline accuracy). This substantial performance
chasm highlights the inadequacy of current multimodal systems in approximating
fundamental human reasoning capacities, underscoring the need for
paradigm-shifting advancements to bridge this cognitive divide.Summary
AI-Generated Summary