IQBench: Насколько «умны» модели «визуальный язык»? Исследование с использованием тестов IQ для людей
IQBench: How "Smart'' Are Vision-Language Models? A Study with Human IQ Tests
May 17, 2025
Авторы: Tan-Hanh Pham, Phu-Vinh Nguyen, Dang The Hung, Bui Trong Duong, Vu Nguyen Thanh, Chris Ngo, Tri Quang Truong, Truong-Son Hy
cs.AI
Аннотация
Хотя крупные модели, работающие с визуальными и текстовыми данными (Vision-Language Models, VLMs), демонстрируют впечатляющие результаты в широком спектре мультимодальных задач, их истинные способности к рассуждению на тестах, аналогичных человеческим IQ, остаются недостаточно изученными. Для продвижения исследований в области подвижного интеллекта VLMs мы представляем **IQBench** — новый бенчмарк, предназначенный для оценки VLMs на стандартизированных визуальных тестах IQ. Мы сосредоточились на оценке способностей моделей к рассуждению, которые, по нашему мнению, важнее точности конечного предсказания. **Наш бенчмарк ориентирован на визуальную составляющую, минимизируя зависимость от избыточного текстового контента**, что побуждает модели выводить ответы преимущественно на основе информации из изображений, а не из усвоенных текстовых знаний. Для этого мы вручную собрали и аннотировали 500 визуальных вопросов IQ, чтобы **предотвратить непреднамеренную утечку данных во время обучения**. В отличие от предыдущих работ, которые в основном сосредоточены на точности конечного ответа, мы оцениваем способность моделей к рассуждению, анализируя их объяснения и шаблоны, используемые для решения каждой задачи, наряду с точностью конечного предсказания и оценкой человеком. Наши эксперименты показывают, что существуют значительные различия в производительности между задачами, при этом модели `o4-mini`, `gemini-2.5-flash` и `claude-3.7-sonnet` достигают наивысших средних показателей точности — 0,615, 0,578 и 0,548 соответственно. Однако все модели испытывают трудности с задачами на 3D-пространственное мышление и анаграммы, что подчеркивает существенные ограничения в общих способностях к рассуждению у современных VLMs. По показателям рассуждения модели `o4-mini`, `gemini-2.5-flash` и `claude-3.7-sonnet` достигли средних значений 0,696, 0,586 и 0,516 соответственно. Эти результаты выявляют несоответствия между процессами рассуждения моделей и их конечными ответами, подчеркивая важность оценки точности рассуждений в дополнение к конечным предсказаниям.
English
Although large Vision-Language Models (VLMs) have demonstrated remarkable
performance in a wide range of multimodal tasks, their true reasoning
capabilities on human IQ tests remain underexplored. To advance research on the
fluid intelligence of VLMs, we introduce **IQBench**, a new benchmark designed
to evaluate VLMs on standardized visual IQ tests. We focus on evaluating the
reasoning capabilities of VLMs, which we argue are more important than the
accuracy of the final prediction. **Our benchmark is visually centric,
minimizing the dependence on unnecessary textual content**, thus encouraging
models to derive answers primarily from image-based information rather than
learned textual knowledge. To this end, we manually collected and annotated 500
visual IQ questions to **prevent unintentional data leakage during training**.
Unlike prior work that focuses primarily on the accuracy of the final answer,
we evaluate the reasoning ability of the models by assessing their explanations
and the patterns used to solve each problem, along with the accuracy of the
final prediction and human evaluation. Our experiments show that there are
substantial performance disparities between tasks, with models such as
`o4-mini`, `gemini-2.5-flash`, and `claude-3.7-sonnet` achieving the highest
average accuracies of 0.615, 0.578, and 0.548, respectively. However, all
models struggle with 3D spatial and anagram reasoning tasks, highlighting
significant limitations in current VLMs' general reasoning abilities. In terms
of reasoning scores, `o4-mini`, `gemini-2.5-flash`, and `claude-3.7-sonnet`
achieved top averages of 0.696, 0.586, and 0.516, respectively. These results
highlight inconsistencies between the reasoning processes of the models and
their final answers, emphasizing the importance of evaluating the accuracy of
the reasoning in addition to the final predictions.Summary
AI-Generated Summary