MM-IQ: Avaliando a Abstração e Raciocínio Humanos em Modelos Multimodais
MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models
February 2, 2025
Autores: Huanqia Cai, Yijun Yang, Winston Hu
cs.AI
Resumo
Os testes de QI têm servido como uma metodologia fundamental para avaliar as capacidades cognitivas humanas, deliberadamente desvinculando a avaliação do histórico linguístico, proficiência em idiomas ou conhecimento específico de domínio para isolar competências centrais em abstração e raciocínio. No entanto, a pesquisa em inteligência artificial atualmente carece de benchmarks sistemáticos para quantificar essas dimensões cognitivas críticas em sistemas multimodais. Para abordar essa lacuna crítica, propomos o MM-IQ, um framework abrangente de avaliação composto por 2.710 itens de teste meticulosamente selecionados abrangendo 8 paradigmas distintos de raciocínio.
Através da avaliação sistemática de modelos multimodais líderes de código aberto e proprietários, nosso benchmark revela limitações marcantes: mesmo arquiteturas de ponta alcançam apenas um desempenho marginalmente superior ao acaso (27,49% vs. 25% de precisão de linha de base). Esse abismo de desempenho substancial destaca a inadequação dos sistemas multimodais atuais em aproximar as capacidades de raciocínio humano fundamentais, destacando a necessidade de avanços paradigmáticos para superar essa divisão cognitiva.
English
IQ testing has served as a foundational methodology for evaluating human
cognitive capabilities, deliberately decoupling assessment from linguistic
background, language proficiency, or domain-specific knowledge to isolate core
competencies in abstraction and reasoning. Yet, artificial intelligence
research currently lacks systematic benchmarks to quantify these critical
cognitive dimensions in multimodal systems. To address this critical gap, we
propose MM-IQ, a comprehensive evaluation framework comprising 2,710
meticulously curated test items spanning 8 distinct reasoning paradigms.
Through systematic evaluation of leading open-source and proprietary
multimodal models, our benchmark reveals striking limitations: even
state-of-the-art architectures achieve only marginally superior performance to
random chance (27.49% vs. 25% baseline accuracy). This substantial performance
chasm highlights the inadequacy of current multimodal systems in approximating
fundamental human reasoning capacities, underscoring the need for
paradigm-shifting advancements to bridge this cognitive divide.Summary
AI-Generated Summary