IQBench: Quanto sono "intelligenti" i modelli visione-linguaggio? Uno studio con test del QI umano
IQBench: How "Smart'' Are Vision-Language Models? A Study with Human IQ Tests
May 17, 2025
Autori: Tan-Hanh Pham, Phu-Vinh Nguyen, Dang The Hung, Bui Trong Duong, Vu Nguyen Thanh, Chris Ngo, Tri Quang Truong, Truong-Son Hy
cs.AI
Abstract
Sebbene i grandi modelli visione-linguaggio (VLMs) abbiano dimostrato prestazioni notevoli in un'ampia gamma di attività multimodali, le loro vere capacità di ragionamento nei test di QI umani rimangono poco esplorate. Per avanzare la ricerca sull'intelligenza fluida dei VLMs, introduciamo **IQBench**, un nuovo benchmark progettato per valutare i VLMs su test visivi standardizzati di QI. Ci concentriamo sulla valutazione delle capacità di ragionamento dei VLMs, che riteniamo siano più importanti dell'accuratezza della previsione finale. **Il nostro benchmark è visivamente centrico, minimizzando la dipendenza da contenuti testuali non necessari**, incoraggiando così i modelli a derivare le risposte principalmente dalle informazioni basate sulle immagini piuttosto che dalle conoscenze testuali apprese. A tal fine, abbiamo raccolto e annotato manualmente 500 domande visive di QI per **prevenire la fuoriuscita involontaria di dati durante l'addestramento**. A differenza dei lavori precedenti che si concentrano principalmente sull'accuratezza della risposta finale, valutiamo la capacità di ragionamento dei modelli analizzando le loro spiegazioni e i modelli utilizzati per risolvere ogni problema, insieme all'accuratezza della previsione finale e alla valutazione umana. I nostri esperimenti mostrano che ci sono disparità significative nelle prestazioni tra i compiti, con modelli come `o4-mini`, `gemini-2.5-flash` e `claude-3.7-sonnet` che raggiungono le medie di accuratezza più alte rispettivamente di 0,615, 0,578 e 0,548. Tuttavia, tutti i modelli hanno difficoltà con i compiti di ragionamento spaziale 3D e anagrammi, evidenziando limitazioni significative nelle capacità di ragionamento generale degli attuali VLMs. In termini di punteggi di ragionamento, `o4-mini`, `gemini-2.5-flash` e `claude-3.7-sonnet` hanno raggiunto le medie più alte rispettivamente di 0,696, 0,586 e 0,516. Questi risultati evidenziano incongruenze tra i processi di ragionamento dei modelli e le loro risposte finali, sottolineando l'importanza di valutare l'accuratezza del ragionamento oltre alle previsioni finali.
English
Although large Vision-Language Models (VLMs) have demonstrated remarkable
performance in a wide range of multimodal tasks, their true reasoning
capabilities on human IQ tests remain underexplored. To advance research on the
fluid intelligence of VLMs, we introduce **IQBench**, a new benchmark designed
to evaluate VLMs on standardized visual IQ tests. We focus on evaluating the
reasoning capabilities of VLMs, which we argue are more important than the
accuracy of the final prediction. **Our benchmark is visually centric,
minimizing the dependence on unnecessary textual content**, thus encouraging
models to derive answers primarily from image-based information rather than
learned textual knowledge. To this end, we manually collected and annotated 500
visual IQ questions to **prevent unintentional data leakage during training**.
Unlike prior work that focuses primarily on the accuracy of the final answer,
we evaluate the reasoning ability of the models by assessing their explanations
and the patterns used to solve each problem, along with the accuracy of the
final prediction and human evaluation. Our experiments show that there are
substantial performance disparities between tasks, with models such as
`o4-mini`, `gemini-2.5-flash`, and `claude-3.7-sonnet` achieving the highest
average accuracies of 0.615, 0.578, and 0.548, respectively. However, all
models struggle with 3D spatial and anagram reasoning tasks, highlighting
significant limitations in current VLMs' general reasoning abilities. In terms
of reasoning scores, `o4-mini`, `gemini-2.5-flash`, and `claude-3.7-sonnet`
achieved top averages of 0.696, 0.586, and 0.516, respectively. These results
highlight inconsistencies between the reasoning processes of the models and
their final answers, emphasizing the importance of evaluating the accuracy of
the reasoning in addition to the final predictions.