IQBench: ¿Qué tan "inteligentes" son los modelos de visión y lenguaje? Un estudio con pruebas de coeficiente intelectual humano
IQBench: How "Smart'' Are Vision-Language Models? A Study with Human IQ Tests
May 17, 2025
Autores: Tan-Hanh Pham, Phu-Vinh Nguyen, Dang The Hung, Bui Trong Duong, Vu Nguyen Thanh, Chris Ngo, Tri Quang Truong, Truong-Son Hy
cs.AI
Resumen
Aunque los grandes Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) han demostrado un rendimiento notable en una amplia gama de tareas multimodales, sus verdaderas capacidades de razonamiento en pruebas de coeficiente intelectual (IQ) humanas siguen siendo poco exploradas. Para avanzar en la investigación sobre la inteligencia fluida de los VLMs, presentamos **IQBench**, un nuevo punto de referencia diseñado para evaluar a los VLMs en pruebas visuales de IQ estandarizadas. Nos centramos en evaluar las capacidades de razonamiento de los VLMs, que consideramos más importantes que la precisión de la predicción final. **Nuestro punto de referencia es visualmente centrado, minimizando la dependencia de contenido textual innecesario**, fomentando así que los modelos obtengan respuestas principalmente a partir de información basada en imágenes en lugar de conocimiento textual aprendido. Con este fin, recopilamos y anotamos manualmente 500 preguntas de IQ visuales para **evitar fugas de datos involuntarias durante el entrenamiento**. A diferencia de trabajos previos que se centran principalmente en la precisión de la respuesta final, evaluamos la capacidad de razonamiento de los modelos analizando sus explicaciones y los patrones utilizados para resolver cada problema, junto con la precisión de la predicción final y la evaluación humana. Nuestros experimentos muestran que existen disparidades sustanciales en el rendimiento entre tareas, con modelos como `o4-mini`, `gemini-2.5-flash` y `claude-3.7-sonnet` alcanzando las precisiones promedio más altas de 0.615, 0.578 y 0.548, respectivamente. Sin embargo, todos los modelos tienen dificultades con tareas de razonamiento espacial 3D y de anagramas, lo que resalta limitaciones significativas en las capacidades generales de razonamiento de los VLMs actuales. En términos de puntuaciones de razonamiento, `o4-mini`, `gemini-2.5-flash` y `claude-3.7-sonnet` obtuvieron los promedios más altos de 0.696, 0.586 y 0.516, respectivamente. Estos resultados subrayan inconsistencias entre los procesos de razonamiento de los modelos y sus respuestas finales, enfatizando la importancia de evaluar la precisión del razonamiento además de las predicciones finales.
English
Although large Vision-Language Models (VLMs) have demonstrated remarkable
performance in a wide range of multimodal tasks, their true reasoning
capabilities on human IQ tests remain underexplored. To advance research on the
fluid intelligence of VLMs, we introduce **IQBench**, a new benchmark designed
to evaluate VLMs on standardized visual IQ tests. We focus on evaluating the
reasoning capabilities of VLMs, which we argue are more important than the
accuracy of the final prediction. **Our benchmark is visually centric,
minimizing the dependence on unnecessary textual content**, thus encouraging
models to derive answers primarily from image-based information rather than
learned textual knowledge. To this end, we manually collected and annotated 500
visual IQ questions to **prevent unintentional data leakage during training**.
Unlike prior work that focuses primarily on the accuracy of the final answer,
we evaluate the reasoning ability of the models by assessing their explanations
and the patterns used to solve each problem, along with the accuracy of the
final prediction and human evaluation. Our experiments show that there are
substantial performance disparities between tasks, with models such as
`o4-mini`, `gemini-2.5-flash`, and `claude-3.7-sonnet` achieving the highest
average accuracies of 0.615, 0.578, and 0.548, respectively. However, all
models struggle with 3D spatial and anagram reasoning tasks, highlighting
significant limitations in current VLMs' general reasoning abilities. In terms
of reasoning scores, `o4-mini`, `gemini-2.5-flash`, and `claude-3.7-sonnet`
achieved top averages of 0.696, 0.586, and 0.516, respectively. These results
highlight inconsistencies between the reasoning processes of the models and
their final answers, emphasizing the importance of evaluating the accuracy of
the reasoning in addition to the final predictions.Summary
AI-Generated Summary