DynaMath: Un banco de pruebas visual dinámico para evaluar la robustez del razonamiento matemático de los modelos de lenguaje visual.
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models
October 29, 2024
Autores: Chengke Zou, Xingang Guo, Rui Yang, Junyu Zhang, Bin Hu, Huan Zhang
cs.AI
Resumen
Los rápidos avances en los Modelos Visión-Lenguaje (VLMs) han demostrado un gran potencial en abordar tareas de razonamiento matemático que implican contexto visual. A diferencia de los humanos que pueden aplicar de manera confiable pasos de solución a problemas similares con modificaciones menores, encontramos que los VLMs de última generación como GPT-4o pueden fallar consistentemente en estos escenarios, revelando limitaciones en sus capacidades de razonamiento matemático. En este documento, investigamos la robustez del razonamiento matemático en los VLMs y evaluamos qué tan bien estos modelos se desempeñan bajo diferentes variantes de la misma pregunta, como cambios en los valores numéricos visuales o gráficos de funciones. Aunque se han desarrollado varios puntos de referencia matemáticos basados en visión para evaluar las capacidades de resolución de problemas de los VLMs, estos puntos de referencia contienen solo conjuntos estáticos de problemas y no pueden evaluar fácilmente la robustez del razonamiento matemático. Para llenar este vacío, presentamos DynaMath, un punto de referencia matemático visual dinámico diseñado para evaluar a fondo los VLMs. DynaMath incluye 501 preguntas semilla de alta calidad, de múltiples temas, cada una representada como un programa en Python. Estos programas están cuidadosamente diseñados y anotados para permitir la generación automática de un conjunto mucho más grande de preguntas concretas, incluyendo muchos tipos diferentes de variaciones visuales y textuales. DynaMath nos permite evaluar la capacidad de generalización de los VLMs, al evaluar su desempeño bajo condiciones de entrada variables de una pregunta semilla. Evaluamos 14 VLMs de última generación con 5,010 preguntas concretas generadas. Nuestros resultados muestran que la precisión del modelo en el peor caso, definida como el porcentaje de preguntas semilla respondidas correctamente en las 10 variantes, es significativamente más baja que la precisión en el caso promedio. Nuestro análisis enfatiza la necesidad de estudiar la robustez de las capacidades de razonamiento de los VLMs, y DynaMath proporciona información valiosa para guiar el desarrollo de modelos más confiables para el razonamiento matemático.
English
The rapid advancements in Vision-Language Models (VLMs) have shown great
potential in tackling mathematical reasoning tasks that involve visual context.
Unlike humans who can reliably apply solution steps to similar problems with
minor modifications, we found that SOTA VLMs like GPT-4o can consistently fail
in these scenarios, revealing limitations in their mathematical reasoning
capabilities. In this paper, we investigate the mathematical reasoning
robustness in VLMs and evaluate how well these models perform under different
variants of the same question, such as changes in visual numerical values or
function graphs. While several vision-based math benchmarks have been developed
to assess VLMs' problem-solving capabilities, these benchmarks contain only
static sets of problems and cannot easily evaluate mathematical reasoning
robustness. To fill this gap, we introduce DynaMath, a dynamic visual math
benchmark designed for in-depth assessment of VLMs. DynaMath includes 501
high-quality, multi-topic seed questions, each represented as a Python program.
Those programs are carefully designed and annotated to enable the automatic
generation of a much larger set of concrete questions, including many different
types of visual and textual variations. DynaMath allows us to evaluate the
generalization ability of VLMs, by assessing their performance under varying
input conditions of a seed question. We evaluated 14 SOTA VLMs with 5,010
generated concrete questions. Our results show that the worst-case model
accuracy, defined as the percentage of correctly answered seed questions in all
10 variants, is significantly lower than the average-case accuracy. Our
analysis emphasizes the need to study the robustness of VLMs' reasoning
abilities, and DynaMath provides valuable insights to guide the development of
more reliable models for mathematical reasoning.Summary
AI-Generated Summary