ChatPaper.aiChatPaper

MM-IQ: マルチモーダルモデルにおける人間らしい抽象化と推論のベンチマーキング

MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models

February 2, 2025
著者: Huanqia Cai, Yijun Yang, Winston Hu
cs.AI

要旨

IQテストは、人間の認知能力を評価するための基本的な方法論として役立ってきました。この方法論は、言語的背景、言語能力、または特定の知識領域から評価を切り離し、抽象化と推論の中核的な能力を分離することを意図しています。しかし、現在の人工知能研究では、これらの重要な認知次元を多様なモーダルシステムで定量化するための体系的な基準が不足しています。この重要なギャップに対処するために、私たちはMM-IQを提案します。これは、8つの異なる推論パラダイムを網羅する2,710の入念に選別されたテスト項目からなる包括的な評価フレームワークです。 主要なオープンソースおよびプロプライエタリな多様なモデルを体系的に評価することにより、我々のベンチマークは驚くほどの制限を明らかにします。最先端のアーキテクチャでも、ランダムなチャンス(27.49%対25%の基準精度)にわずかに優れたパフォーマンスしか達成できません。この大きなパフォーマンスの隔たりは、現在の多様なシステムが基本的な人間の推論能力を近似するのに不十分であることを強調し、この認知的な分断を埋めるための画期的な進歩の必要性を強調しています。
English
IQ testing has served as a foundational methodology for evaluating human cognitive capabilities, deliberately decoupling assessment from linguistic background, language proficiency, or domain-specific knowledge to isolate core competencies in abstraction and reasoning. Yet, artificial intelligence research currently lacks systematic benchmarks to quantify these critical cognitive dimensions in multimodal systems. To address this critical gap, we propose MM-IQ, a comprehensive evaluation framework comprising 2,710 meticulously curated test items spanning 8 distinct reasoning paradigms. Through systematic evaluation of leading open-source and proprietary multimodal models, our benchmark reveals striking limitations: even state-of-the-art architectures achieve only marginally superior performance to random chance (27.49% vs. 25% baseline accuracy). This substantial performance chasm highlights the inadequacy of current multimodal systems in approximating fundamental human reasoning capacities, underscoring the need for paradigm-shifting advancements to bridge this cognitive divide.

Summary

AI-Generated Summary

PDF242February 4, 2025