IQBench: Quão "Inteligentes" São os Modelos Visão-Linguagem? Um Estudo com Testes de QI Humano
IQBench: How "Smart'' Are Vision-Language Models? A Study with Human IQ Tests
May 17, 2025
Autores: Tan-Hanh Pham, Phu-Vinh Nguyen, Dang The Hung, Bui Trong Duong, Vu Nguyen Thanh, Chris Ngo, Tri Quang Truong, Truong-Son Hy
cs.AI
Resumo
Embora os grandes Modelos de Visão e Linguagem (VLMs) tenham demonstrado desempenho notável em uma ampla gama de tarefas multimodais, suas verdadeiras capacidades de raciocínio em testes de QI humanos permanecem pouco exploradas. Para avançar a pesquisa sobre a inteligência fluida dos VLMs, introduzimos o **IQBench**, um novo benchmark projetado para avaliar VLMs em testes de QI visual padronizados. Nosso foco está em avaliar as capacidades de raciocínio dos VLMs, que argumentamos serem mais importantes do que a precisão da previsão final. **Nosso benchmark é visualmente centrado, minimizando a dependência de conteúdo textual desnecessário**, incentivando assim os modelos a derivar respostas principalmente a partir de informações baseadas em imagens, em vez de conhecimento textual aprendido. Para isso, coletamos e anotamos manualmente 500 questões de QI visual para **evitar vazamentos de dados não intencionais durante o treinamento**. Diferentemente de trabalhos anteriores que se concentram principalmente na precisão da resposta final, avaliamos a capacidade de raciocínio dos modelos analisando suas explicações e os padrões usados para resolver cada problema, juntamente com a precisão da previsão final e a avaliação humana. Nossos experimentos mostram que há disparidades substanciais de desempenho entre as tarefas, com modelos como `o4-mini`, `gemini-2.5-flash` e `claude-3.7-sonnet` alcançando as maiores médias de precisão de 0,615, 0,578 e 0,548, respectivamente. No entanto, todos os modelos enfrentam dificuldades em tarefas de raciocínio espacial 3D e anagramas, destacando limitações significativas nas habilidades gerais de raciocínio dos VLMs atuais. Em termos de pontuação de raciocínio, `o4-mini`, `gemini-2.5-flash` e `claude-3.7-sonnet` alcançaram as maiores médias de 0,696, 0,586 e 0,516, respectivamente. Esses resultados destacam inconsistências entre os processos de raciocínio dos modelos e suas respostas finais, enfatizando a importância de avaliar a precisão do raciocínio além das previsões finais.
English
Although large Vision-Language Models (VLMs) have demonstrated remarkable
performance in a wide range of multimodal tasks, their true reasoning
capabilities on human IQ tests remain underexplored. To advance research on the
fluid intelligence of VLMs, we introduce **IQBench**, a new benchmark designed
to evaluate VLMs on standardized visual IQ tests. We focus on evaluating the
reasoning capabilities of VLMs, which we argue are more important than the
accuracy of the final prediction. **Our benchmark is visually centric,
minimizing the dependence on unnecessary textual content**, thus encouraging
models to derive answers primarily from image-based information rather than
learned textual knowledge. To this end, we manually collected and annotated 500
visual IQ questions to **prevent unintentional data leakage during training**.
Unlike prior work that focuses primarily on the accuracy of the final answer,
we evaluate the reasoning ability of the models by assessing their explanations
and the patterns used to solve each problem, along with the accuracy of the
final prediction and human evaluation. Our experiments show that there are
substantial performance disparities between tasks, with models such as
`o4-mini`, `gemini-2.5-flash`, and `claude-3.7-sonnet` achieving the highest
average accuracies of 0.615, 0.578, and 0.548, respectively. However, all
models struggle with 3D spatial and anagram reasoning tasks, highlighting
significant limitations in current VLMs' general reasoning abilities. In terms
of reasoning scores, `o4-mini`, `gemini-2.5-flash`, and `claude-3.7-sonnet`
achieved top averages of 0.696, 0.586, and 0.516, respectively. These results
highlight inconsistencies between the reasoning processes of the models and
their final answers, emphasizing the importance of evaluating the accuracy of
the reasoning in addition to the final predictions.