MM-IQ: Avaliando a Abstração e Raciocínio Humanos em Modelos Multimodais

Resumo

Os testes de QI têm servido como uma metodologia fundamental para avaliar as capacidades cognitivas humanas, deliberadamente desvinculando a avaliação do histórico linguístico, proficiência em idiomas ou conhecimento específico de domínio para isolar competências centrais em abstração e raciocínio. No entanto, a pesquisa em inteligência artificial atualmente carece de benchmarks sistemáticos para quantificar essas dimensões cognitivas críticas em sistemas multimodais. Para abordar essa lacuna crítica, propomos o MM-IQ, um framework abrangente de avaliação composto por 2.710 itens de teste meticulosamente selecionados abrangendo 8 paradigmas distintos de raciocínio. Através da avaliação sistemática de modelos multimodais líderes de código aberto e proprietários, nosso benchmark revela limitações marcantes: mesmo arquiteturas de ponta alcançam apenas um desempenho marginalmente superior ao acaso (27,49% vs. 25% de precisão de linha de base). Esse abismo de desempenho substancial destaca a inadequação dos sistemas multimodais atuais em aproximar as capacidades de raciocínio humano fundamentais, destacando a necessidade de avanços paradigmáticos para superar essa divisão cognitiva.

English

IQ testing has served as a foundational methodology for evaluating human cognitive capabilities, deliberately decoupling assessment from linguistic background, language proficiency, or domain-specific knowledge to isolate core competencies in abstraction and reasoning. Yet, artificial intelligence research currently lacks systematic benchmarks to quantify these critical cognitive dimensions in multimodal systems. To address this critical gap, we propose MM-IQ, a comprehensive evaluation framework comprising 2,710 meticulously curated test items spanning 8 distinct reasoning paradigms. Through systematic evaluation of leading open-source and proprietary multimodal models, our benchmark reveals striking limitations: even state-of-the-art architectures achieve only marginally superior performance to random chance (27.49% vs. 25% baseline accuracy). This substantial performance chasm highlights the inadequacy of current multimodal systems in approximating fundamental human reasoning capacities, underscoring the need for paradigm-shifting advancements to bridge this cognitive divide.

MM-IQ: Avaliando a Abstração e Raciocínio Humanos em Modelos Multimodais

MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models

Resumo

Support