DynaMath: Динамический визуальный бенчмарк для оценки устойчивости математического рассуждения моделей языка видения.
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models
October 29, 2024
Авторы: Chengke Zou, Xingang Guo, Rui Yang, Junyu Zhang, Bin Hu, Huan Zhang
cs.AI
Аннотация
Быстрый прогресс в моделях видео-языкового взаимодействия (VLM) показал большой потенциал в решении задач математического рассуждения, включающих визуальный контекст. В отличие от людей, способных надежно применять шаги решения к похожим проблемам с незначительными изменениями, мы обнаружили, что передовые модели VLM, такие как GPT-4o, могут последовательно терпеть неудачу в таких сценариях, выявляя ограничения их математических рассуждений. В данной статье мы исследуем устойчивость математических рассуждений в моделях VLM и оценим, насколько хорошо эти модели справляются с различными вариантами одного и того же вопроса, такими как изменения визуальных числовых значений или функциональных графиков. Хотя было разработано несколько видео-ориентированных математических бенчмарков для оценки способностей моделей VLM в решении проблем, эти бенчмарки содержат только статические наборы задач и не могут легко оценить устойчивость математических рассуждений. Чтобы заполнить этот пробел, мы представляем DynaMath, динамический визуальный математический бенчмарк, разработанный для глубокой оценки моделей VLM. DynaMath включает 501 высококачественный мульти-тематический исходный вопрос, каждый из которых представлен в виде программы на Python. Эти программы тщательно разработаны и аннотированы для автоматической генерации гораздо большего набора конкретных вопросов, включая множество различных типов визуальных и текстовых вариаций. DynaMath позволяет нам оценить способность обобщения моделей VLM, оценивая их производительность при различных входных условиях исходного вопроса. Мы оценили 14 передовых моделей VLM с 5 010 сгенерированными конкретными вопросами. Наши результаты показывают, что точность модели в худшем случае, определенная как процент правильных ответов на исходные вопросы во всех 10 вариантах, значительно ниже средней точности. Наш анализ подчеркивает необходимость изучения устойчивости рассуждений моделей VLM, а DynaMath предоставляет ценные идеи для разработки более надежных моделей для математических рассуждений.
English
The rapid advancements in Vision-Language Models (VLMs) have shown great
potential in tackling mathematical reasoning tasks that involve visual context.
Unlike humans who can reliably apply solution steps to similar problems with
minor modifications, we found that SOTA VLMs like GPT-4o can consistently fail
in these scenarios, revealing limitations in their mathematical reasoning
capabilities. In this paper, we investigate the mathematical reasoning
robustness in VLMs and evaluate how well these models perform under different
variants of the same question, such as changes in visual numerical values or
function graphs. While several vision-based math benchmarks have been developed
to assess VLMs' problem-solving capabilities, these benchmarks contain only
static sets of problems and cannot easily evaluate mathematical reasoning
robustness. To fill this gap, we introduce DynaMath, a dynamic visual math
benchmark designed for in-depth assessment of VLMs. DynaMath includes 501
high-quality, multi-topic seed questions, each represented as a Python program.
Those programs are carefully designed and annotated to enable the automatic
generation of a much larger set of concrete questions, including many different
types of visual and textual variations. DynaMath allows us to evaluate the
generalization ability of VLMs, by assessing their performance under varying
input conditions of a seed question. We evaluated 14 SOTA VLMs with 5,010
generated concrete questions. Our results show that the worst-case model
accuracy, defined as the percentage of correctly answered seed questions in all
10 variants, is significantly lower than the average-case accuracy. Our
analysis emphasizes the need to study the robustness of VLMs' reasoning
abilities, and DynaMath provides valuable insights to guide the development of
more reliable models for mathematical reasoning.Summary
AI-Generated Summary