ChatPaper.aiChatPaper

IQBench: Hoe "Slim" Zijn Vision-Language Modellen? Een Studie met Menselijke IQ-Tests

IQBench: How "Smart'' Are Vision-Language Models? A Study with Human IQ Tests

May 17, 2025
Auteurs: Tan-Hanh Pham, Phu-Vinh Nguyen, Dang The Hung, Bui Trong Duong, Vu Nguyen Thanh, Chris Ngo, Tri Quang Truong, Truong-Son Hy
cs.AI

Samenvatting

Hoewel grote Vision-Language Models (VLMs) opmerkelijke prestaties hebben getoond in een breed scala aan multimodale taken, blijven hun werkelijke redeneervaardigheden op menselijke IQ-tests onderbelicht. Om het onderzoek naar de vloeibare intelligentie van VLMs te bevorderen, introduceren we **IQBench**, een nieuwe benchmark die is ontworpen om VLMs te evalueren op gestandaardiseerde visuele IQ-tests. We richten ons op het evalueren van de redeneervaardigheden van VLMs, waarvan we stellen dat deze belangrijker zijn dan de nauwkeurigheid van de uiteindelijke voorspelling. **Onze benchmark is visueel gericht en minimaliseert de afhankelijkheid van onnodige tekstuele inhoud**, waardoor modellen worden aangemoedigd om antwoorden voornamelijk af te leiden uit beeldinformatie in plaats van geleerde tekstuele kennis. Hiertoe hebben we handmatig 500 visuele IQ-vragen verzameld en geannoteerd om **onbedoelde datalekken tijdens de training te voorkomen**. In tegenstelling tot eerder werk dat zich voornamelijk richt op de nauwkeurigheid van het uiteindelijke antwoord, evalueren we het redeneervermogen van de modellen door hun uitleg en de patronen die worden gebruikt om elk probleem op te lossen te beoordelen, naast de nauwkeurigheid van de uiteindelijke voorspelling en menselijke evaluatie. Onze experimenten laten zien dat er aanzienlijke prestatieverschillen zijn tussen taken, waarbij modellen zoals `o4-mini`, `gemini-2.5-flash` en `claude-3.7-sonnet` de hoogste gemiddelde nauwkeurigheden behalen van respectievelijk 0,615, 0,578 en 0,548. Alle modellen hebben echter moeite met 3D-ruimtelijke en anagramredeneertaken, wat significante beperkingen in de algemene redeneervaardigheden van huidige VLMs benadrukt. Wat betreft redeneerscores behaalden `o4-mini`, `gemini-2.5-flash` en `claude-3.7-sonnet` de hoogste gemiddelden van respectievelijk 0,696, 0,586 en 0,516. Deze resultaten benadrukken inconsistenties tussen de redeneerprocessen van de modellen en hun uiteindelijke antwoorden, wat het belang onderstreept van het evalueren van de nauwkeurigheid van het redeneren naast de uiteindelijke voorspellingen.
English
Although large Vision-Language Models (VLMs) have demonstrated remarkable performance in a wide range of multimodal tasks, their true reasoning capabilities on human IQ tests remain underexplored. To advance research on the fluid intelligence of VLMs, we introduce **IQBench**, a new benchmark designed to evaluate VLMs on standardized visual IQ tests. We focus on evaluating the reasoning capabilities of VLMs, which we argue are more important than the accuracy of the final prediction. **Our benchmark is visually centric, minimizing the dependence on unnecessary textual content**, thus encouraging models to derive answers primarily from image-based information rather than learned textual knowledge. To this end, we manually collected and annotated 500 visual IQ questions to **prevent unintentional data leakage during training**. Unlike prior work that focuses primarily on the accuracy of the final answer, we evaluate the reasoning ability of the models by assessing their explanations and the patterns used to solve each problem, along with the accuracy of the final prediction and human evaluation. Our experiments show that there are substantial performance disparities between tasks, with models such as `o4-mini`, `gemini-2.5-flash`, and `claude-3.7-sonnet` achieving the highest average accuracies of 0.615, 0.578, and 0.548, respectively. However, all models struggle with 3D spatial and anagram reasoning tasks, highlighting significant limitations in current VLMs' general reasoning abilities. In terms of reasoning scores, `o4-mini`, `gemini-2.5-flash`, and `claude-3.7-sonnet` achieved top averages of 0.696, 0.586, and 0.516, respectively. These results highlight inconsistencies between the reasoning processes of the models and their final answers, emphasizing the importance of evaluating the accuracy of the reasoning in addition to the final predictions.
PDF02May 30, 2025