DynaMath: Um Benchmark Visual Dinâmico para Avaliar a Robustez do Raciocínio Matemático de Modelos de Linguagem Visual
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models
October 29, 2024
Autores: Chengke Zou, Xingang Guo, Rui Yang, Junyu Zhang, Bin Hu, Huan Zhang
cs.AI
Resumo
Os avanços rápidos em Modelos Visão-Linguagem (VLMs) têm demonstrado grande potencial na abordagem de tarefas de raciocínio matemático que envolvem contexto visual. Ao contrário dos humanos que podem aplicar de forma confiável passos de solução a problemas semelhantes com modificações mínimas, descobrimos que os VLMs de última geração, como o GPT-4o, podem consistentemente falhar nesses cenários, revelando limitações em suas capacidades de raciocínio matemático. Neste artigo, investigamos a robustez do raciocínio matemático em VLMs e avaliamos o desempenho desses modelos sob diferentes variantes da mesma pergunta, como mudanças nos valores numéricos visuais ou nos gráficos de funções. Embora vários benchmarks matemáticos baseados em visão tenham sido desenvolvidos para avaliar as capacidades de resolução de problemas dos VLMs, esses benchmarks contêm apenas conjuntos estáticos de problemas e não podem avaliar facilmente a robustez do raciocínio matemático. Para preencher essa lacuna, apresentamos o DynaMath, um benchmark matemático visual dinâmico projetado para avaliação aprofundada de VLMs. O DynaMath inclui 501 perguntas iniciais de alta qualidade e multi-tópico, cada uma representada como um programa Python. Esses programas são cuidadosamente projetados e anotados para permitir a geração automática de um conjunto muito maior de perguntas concretas, incluindo muitos tipos diferentes de variações visuais e textuais. O DynaMath nos permite avaliar a capacidade de generalização dos VLMs, avaliando seu desempenho sob condições de entrada variáveis de uma pergunta inicial. Avaliamos 14 VLMs de última geração com 5.010 perguntas concretas geradas. Nossos resultados mostram que a precisão do modelo no pior caso, definida como a porcentagem de perguntas iniciais respondidas corretamente em todas as 10 variantes, é significativamente menor do que a precisão no caso médio. Nossa análise enfatiza a necessidade de estudar a robustez das habilidades de raciocínio dos VLMs, e o DynaMath fornece insights valiosos para orientar o desenvolvimento de modelos mais confiáveis para o raciocínio matemático.
English
The rapid advancements in Vision-Language Models (VLMs) have shown great
potential in tackling mathematical reasoning tasks that involve visual context.
Unlike humans who can reliably apply solution steps to similar problems with
minor modifications, we found that SOTA VLMs like GPT-4o can consistently fail
in these scenarios, revealing limitations in their mathematical reasoning
capabilities. In this paper, we investigate the mathematical reasoning
robustness in VLMs and evaluate how well these models perform under different
variants of the same question, such as changes in visual numerical values or
function graphs. While several vision-based math benchmarks have been developed
to assess VLMs' problem-solving capabilities, these benchmarks contain only
static sets of problems and cannot easily evaluate mathematical reasoning
robustness. To fill this gap, we introduce DynaMath, a dynamic visual math
benchmark designed for in-depth assessment of VLMs. DynaMath includes 501
high-quality, multi-topic seed questions, each represented as a Python program.
Those programs are carefully designed and annotated to enable the automatic
generation of a much larger set of concrete questions, including many different
types of visual and textual variations. DynaMath allows us to evaluate the
generalization ability of VLMs, by assessing their performance under varying
input conditions of a seed question. We evaluated 14 SOTA VLMs with 5,010
generated concrete questions. Our results show that the worst-case model
accuracy, defined as the percentage of correctly answered seed questions in all
10 variants, is significantly lower than the average-case accuracy. Our
analysis emphasizes the need to study the robustness of VLMs' reasoning
abilities, and DynaMath provides valuable insights to guide the development of
more reliable models for mathematical reasoning.Summary
AI-Generated Summary