MM-IQ: マルチモーダルモデルにおける人間らしい抽象化と推論のベンチマーキング
MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models
February 2, 2025
著者: Huanqia Cai, Yijun Yang, Winston Hu
cs.AI
要旨
IQテストは、人間の認知能力を評価するための基本的な方法論として役立ってきました。この方法論は、言語的背景、言語能力、または特定の知識領域から評価を切り離し、抽象化と推論の中核的な能力を分離することを意図しています。しかし、現在の人工知能研究では、これらの重要な認知次元を多様なモーダルシステムで定量化するための体系的な基準が不足しています。この重要なギャップに対処するために、私たちはMM-IQを提案します。これは、8つの異なる推論パラダイムを網羅する2,710の入念に選別されたテスト項目からなる包括的な評価フレームワークです。
主要なオープンソースおよびプロプライエタリな多様なモデルを体系的に評価することにより、我々のベンチマークは驚くほどの制限を明らかにします。最先端のアーキテクチャでも、ランダムなチャンス(27.49%対25%の基準精度)にわずかに優れたパフォーマンスしか達成できません。この大きなパフォーマンスの隔たりは、現在の多様なシステムが基本的な人間の推論能力を近似するのに不十分であることを強調し、この認知的な分断を埋めるための画期的な進歩の必要性を強調しています。
English
IQ testing has served as a foundational methodology for evaluating human
cognitive capabilities, deliberately decoupling assessment from linguistic
background, language proficiency, or domain-specific knowledge to isolate core
competencies in abstraction and reasoning. Yet, artificial intelligence
research currently lacks systematic benchmarks to quantify these critical
cognitive dimensions in multimodal systems. To address this critical gap, we
propose MM-IQ, a comprehensive evaluation framework comprising 2,710
meticulously curated test items spanning 8 distinct reasoning paradigms.
Through systematic evaluation of leading open-source and proprietary
multimodal models, our benchmark reveals striking limitations: even
state-of-the-art architectures achieve only marginally superior performance to
random chance (27.49% vs. 25% baseline accuracy). This substantial performance
chasm highlights the inadequacy of current multimodal systems in approximating
fundamental human reasoning capacities, underscoring the need for
paradigm-shifting advancements to bridge this cognitive divide.Summary
AI-Generated Summary