ChatPaper.aiChatPaper

IQBench: Quanto sono "intelligenti" i modelli visione-linguaggio? Uno studio con test del QI umano

IQBench: How "Smart'' Are Vision-Language Models? A Study with Human IQ Tests

May 17, 2025
Autori: Tan-Hanh Pham, Phu-Vinh Nguyen, Dang The Hung, Bui Trong Duong, Vu Nguyen Thanh, Chris Ngo, Tri Quang Truong, Truong-Son Hy
cs.AI

Abstract

Sebbene i grandi modelli visione-linguaggio (VLMs) abbiano dimostrato prestazioni notevoli in un'ampia gamma di attività multimodali, le loro vere capacità di ragionamento nei test di QI umani rimangono poco esplorate. Per avanzare la ricerca sull'intelligenza fluida dei VLMs, introduciamo **IQBench**, un nuovo benchmark progettato per valutare i VLMs su test visivi standardizzati di QI. Ci concentriamo sulla valutazione delle capacità di ragionamento dei VLMs, che riteniamo siano più importanti dell'accuratezza della previsione finale. **Il nostro benchmark è visivamente centrico, minimizzando la dipendenza da contenuti testuali non necessari**, incoraggiando così i modelli a derivare le risposte principalmente dalle informazioni basate sulle immagini piuttosto che dalle conoscenze testuali apprese. A tal fine, abbiamo raccolto e annotato manualmente 500 domande visive di QI per **prevenire la fuoriuscita involontaria di dati durante l'addestramento**. A differenza dei lavori precedenti che si concentrano principalmente sull'accuratezza della risposta finale, valutiamo la capacità di ragionamento dei modelli analizzando le loro spiegazioni e i modelli utilizzati per risolvere ogni problema, insieme all'accuratezza della previsione finale e alla valutazione umana. I nostri esperimenti mostrano che ci sono disparità significative nelle prestazioni tra i compiti, con modelli come `o4-mini`, `gemini-2.5-flash` e `claude-3.7-sonnet` che raggiungono le medie di accuratezza più alte rispettivamente di 0,615, 0,578 e 0,548. Tuttavia, tutti i modelli hanno difficoltà con i compiti di ragionamento spaziale 3D e anagrammi, evidenziando limitazioni significative nelle capacità di ragionamento generale degli attuali VLMs. In termini di punteggi di ragionamento, `o4-mini`, `gemini-2.5-flash` e `claude-3.7-sonnet` hanno raggiunto le medie più alte rispettivamente di 0,696, 0,586 e 0,516. Questi risultati evidenziano incongruenze tra i processi di ragionamento dei modelli e le loro risposte finali, sottolineando l'importanza di valutare l'accuratezza del ragionamento oltre alle previsioni finali.
English
Although large Vision-Language Models (VLMs) have demonstrated remarkable performance in a wide range of multimodal tasks, their true reasoning capabilities on human IQ tests remain underexplored. To advance research on the fluid intelligence of VLMs, we introduce **IQBench**, a new benchmark designed to evaluate VLMs on standardized visual IQ tests. We focus on evaluating the reasoning capabilities of VLMs, which we argue are more important than the accuracy of the final prediction. **Our benchmark is visually centric, minimizing the dependence on unnecessary textual content**, thus encouraging models to derive answers primarily from image-based information rather than learned textual knowledge. To this end, we manually collected and annotated 500 visual IQ questions to **prevent unintentional data leakage during training**. Unlike prior work that focuses primarily on the accuracy of the final answer, we evaluate the reasoning ability of the models by assessing their explanations and the patterns used to solve each problem, along with the accuracy of the final prediction and human evaluation. Our experiments show that there are substantial performance disparities between tasks, with models such as `o4-mini`, `gemini-2.5-flash`, and `claude-3.7-sonnet` achieving the highest average accuracies of 0.615, 0.578, and 0.548, respectively. However, all models struggle with 3D spatial and anagram reasoning tasks, highlighting significant limitations in current VLMs' general reasoning abilities. In terms of reasoning scores, `o4-mini`, `gemini-2.5-flash`, and `claude-3.7-sonnet` achieved top averages of 0.696, 0.586, and 0.516, respectively. These results highlight inconsistencies between the reasoning processes of the models and their final answers, emphasizing the importance of evaluating the accuracy of the reasoning in addition to the final predictions.
PDF02May 30, 2025