ChatPaper.aiChatPaper

IQBench: Wie „intelligent“ sind Vision-Language-Modelle? Eine Studie mit menschlichen IQ-Tests

IQBench: How "Smart'' Are Vision-Language Models? A Study with Human IQ Tests

May 17, 2025
papers.authors: Tan-Hanh Pham, Phu-Vinh Nguyen, Dang The Hung, Bui Trong Duong, Vu Nguyen Thanh, Chris Ngo, Tri Quang Truong, Truong-Son Hy
cs.AI

papers.abstract

Obwohl große Vision-Language-Modelle (VLMs) bemerkenswerte Leistungen in einer Vielzahl von multimodalen Aufgaben gezeigt haben, bleiben ihre wahren Denkfähigkeiten bei menschlichen IQ-Tests weitgehend unerforscht. Um die Forschung zur fluiden Intelligenz von VLMs voranzutreiben, führen wir **IQBench** ein, einen neuen Benchmark, der entwickelt wurde, um VLMs anhand standardisierter visueller IQ-Tests zu bewerten. Wir konzentrieren uns auf die Bewertung der Denkfähigkeiten von VLMs, die unserer Ansicht nach wichtiger sind als die Genauigkeit der endgültigen Vorhersage. **Unser Benchmark ist visuell zentriert und minimiert die Abhängigkeit von unnötigem Textinhalt**, wodurch Modelle dazu angeregt werden, Antworten hauptsächlich aus bildbasierten Informationen abzuleiten, anstatt aus gelerntem Textwissen. Zu diesem Zweck haben wir manuell 500 visuelle IQ-Fragen gesammelt und annotiert, um **unbeabsichtigten Datenabfluss während des Trainings zu verhindern**. Im Gegensatz zu früheren Arbeiten, die sich hauptsächlich auf die Genauigkeit der endgültigen Antwort konzentrieren, bewerten wir die Denkfähigkeit der Modelle, indem wir ihre Erklärungen und die Muster, die zur Lösung jedes Problems verwendet werden, zusammen mit der Genauigkeit der endgültigen Vorhersage und der menschlichen Bewertung analysieren. Unsere Experimente zeigen, dass es erhebliche Leistungsunterschiede zwischen den Aufgaben gibt, wobei Modelle wie `o4-mini`, `gemini-2.5-flash` und `claude-3.7-sonnet` die höchsten durchschnittlichen Genauigkeiten von 0,615, 0,578 bzw. 0,548 erreichen. Allerdings kämpfen alle Modelle mit 3D-räumlichen und Anagramm-Denkaufgaben, was erhebliche Einschränkungen in den allgemeinen Denkfähigkeiten aktueller VLMs aufzeigt. In Bezug auf die Denkpunkte erreichten `o4-mini`, `gemini-2.5-flash` und `claude-3.7-sonnet` die höchsten Durchschnittswerte von 0,696, 0,586 bzw. 0,516. Diese Ergebnisse verdeutlichen Inkonsistenzen zwischen den Denkprozessen der Modelle und ihren endgültigen Antworten und unterstreichen die Bedeutung der Bewertung der Genauigkeit des Denkens zusätzlich zu den endgültigen Vorhersagen.
English
Although large Vision-Language Models (VLMs) have demonstrated remarkable performance in a wide range of multimodal tasks, their true reasoning capabilities on human IQ tests remain underexplored. To advance research on the fluid intelligence of VLMs, we introduce **IQBench**, a new benchmark designed to evaluate VLMs on standardized visual IQ tests. We focus on evaluating the reasoning capabilities of VLMs, which we argue are more important than the accuracy of the final prediction. **Our benchmark is visually centric, minimizing the dependence on unnecessary textual content**, thus encouraging models to derive answers primarily from image-based information rather than learned textual knowledge. To this end, we manually collected and annotated 500 visual IQ questions to **prevent unintentional data leakage during training**. Unlike prior work that focuses primarily on the accuracy of the final answer, we evaluate the reasoning ability of the models by assessing their explanations and the patterns used to solve each problem, along with the accuracy of the final prediction and human evaluation. Our experiments show that there are substantial performance disparities between tasks, with models such as `o4-mini`, `gemini-2.5-flash`, and `claude-3.7-sonnet` achieving the highest average accuracies of 0.615, 0.578, and 0.548, respectively. However, all models struggle with 3D spatial and anagram reasoning tasks, highlighting significant limitations in current VLMs' general reasoning abilities. In terms of reasoning scores, `o4-mini`, `gemini-2.5-flash`, and `claude-3.7-sonnet` achieved top averages of 0.696, 0.586, and 0.516, respectively. These results highlight inconsistencies between the reasoning processes of the models and their final answers, emphasizing the importance of evaluating the accuracy of the reasoning in addition to the final predictions.
PDF02May 30, 2025