IQBench : Quelle est l'« intelligence » des modèles vision-langage ? Une étude avec des tests de QI humains
IQBench: How "Smart'' Are Vision-Language Models? A Study with Human IQ Tests
May 17, 2025
Auteurs: Tan-Hanh Pham, Phu-Vinh Nguyen, Dang The Hung, Bui Trong Duong, Vu Nguyen Thanh, Chris Ngo, Tri Quang Truong, Truong-Son Hy
cs.AI
Résumé
Bien que les grands modèles vision-langage (VLMs) aient démontré des performances remarquables dans un large éventail de tâches multimodales, leurs véritables capacités de raisonnement sur des tests de QI humains restent peu explorées. Pour faire avancer la recherche sur l'intelligence fluide des VLMs, nous introduisons **IQBench**, un nouveau benchmark conçu pour évaluer les VLMs sur des tests de QI visuels standardisés. Nous nous concentrons sur l'évaluation des capacités de raisonnement des VLMs, que nous considérons comme plus importantes que la précision de la prédiction finale. **Notre benchmark est visuellement centré, minimisant la dépendance à un contenu textuel superflu**, encourageant ainsi les modèles à dériver des réponses principalement à partir d'informations basées sur l'image plutôt que de connaissances textuelles apprises. À cette fin, nous avons collecté et annoté manuellement 500 questions de QI visuel pour **éviter toute fuite de données involontaire lors de l'entraînement**. Contrairement aux travaux antérieurs qui se concentrent principalement sur la précision de la réponse finale, nous évaluons la capacité de raisonnement des modèles en examinant leurs explications et les schémas utilisés pour résoudre chaque problème, ainsi que la précision de la prédiction finale et l'évaluation humaine. Nos expériences montrent qu'il existe des disparités de performance substantielles entre les tâches, avec des modèles tels que `o4-mini`, `gemini-2.5-flash` et `claude-3.7-sonnet` atteignant les précisions moyennes les plus élevées de 0,615, 0,578 et 0,548, respectivement. Cependant, tous les modèles rencontrent des difficultés avec les tâches de raisonnement spatial 3D et les anagrammes, mettant en lumière des limitations significatives dans les capacités de raisonnement général des VLMs actuels. En termes de scores de raisonnement, `o4-mini`, `gemini-2.5-flash` et `claude-3.7-sonnet` ont atteint les moyennes les plus élevées de 0,696, 0,586 et 0,516, respectivement. Ces résultats soulignent des incohérences entre les processus de raisonnement des modèles et leurs réponses finales, mettant en évidence l'importance d'évaluer la précision du raisonnement en plus des prédictions finales.
English
Although large Vision-Language Models (VLMs) have demonstrated remarkable
performance in a wide range of multimodal tasks, their true reasoning
capabilities on human IQ tests remain underexplored. To advance research on the
fluid intelligence of VLMs, we introduce **IQBench**, a new benchmark designed
to evaluate VLMs on standardized visual IQ tests. We focus on evaluating the
reasoning capabilities of VLMs, which we argue are more important than the
accuracy of the final prediction. **Our benchmark is visually centric,
minimizing the dependence on unnecessary textual content**, thus encouraging
models to derive answers primarily from image-based information rather than
learned textual knowledge. To this end, we manually collected and annotated 500
visual IQ questions to **prevent unintentional data leakage during training**.
Unlike prior work that focuses primarily on the accuracy of the final answer,
we evaluate the reasoning ability of the models by assessing their explanations
and the patterns used to solve each problem, along with the accuracy of the
final prediction and human evaluation. Our experiments show that there are
substantial performance disparities between tasks, with models such as
`o4-mini`, `gemini-2.5-flash`, and `claude-3.7-sonnet` achieving the highest
average accuracies of 0.615, 0.578, and 0.548, respectively. However, all
models struggle with 3D spatial and anagram reasoning tasks, highlighting
significant limitations in current VLMs' general reasoning abilities. In terms
of reasoning scores, `o4-mini`, `gemini-2.5-flash`, and `claude-3.7-sonnet`
achieved top averages of 0.696, 0.586, and 0.516, respectively. These results
highlight inconsistencies between the reasoning processes of the models and
their final answers, emphasizing the importance of evaluating the accuracy of
the reasoning in addition to the final predictions.Summary
AI-Generated Summary