DynaMath: 数学的推論の頑健性を評価するための動的ビジュアルベンチマークの提案
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models
October 29, 2024
著者: Chengke Zou, Xingang Guo, Rui Yang, Junyu Zhang, Bin Hu, Huan Zhang
cs.AI
要旨
ビジョン言語モデル(VLM)の急速な進歩は、視覚的文脈を含む数学的推論タスクに取り組む上で大きな潜在能力を示しています。似た問題に対して解決手順を信頼性高く適用できる人間とは異なり、GPT-4oなどのSOTA VLMは、これらのシナリオで一貫して失敗することがあることがわかりました。これにより、彼らの数学的推論能力には限界があることが明らかになりました。本論文では、VLMの数学的推論の堅牢性を調査し、同じ質問の異なるバリエーション(視覚的数値の変更や関数グラフの変更など)においてこれらのモデルがどのように適切に機能するかを評価します。いくつかのビジョンベースの数学ベンチマークが開発されていますが、これらのベンチマークは問題解決能力を評価するための静的な問題セットしか含んでおらず、数学的推論の堅牢性を簡単に評価することはできません。このギャップを埋めるために、VLMの詳細な評価を目的とした動的ビジュアル数学ベンチマークであるDynaMathを紹介します。DynaMathには、Pythonプログラムとして表現された501個の高品質な複数トピックのシード質問が含まれています。これらのプログラムは、異なる種類の視覚的およびテキストの変化を含む多くの具体的な質問の自動生成を可能にするように注意深く設計および注釈付けされています。DynaMathは、シード質問の入力条件が変化する状況下でVLMの汎化能力を評価することによって、モデルの性能を評価することを可能にします。私たちは、5,010の生成された具体的な質問を用いて14のSOTA VLMを評価しました。結果は、最悪のケースモデルの精度(すべての10のバリエーションで正しく回答されたシード質問の割合)が平均ケースの精度よりも著しく低いことを示しています。私たちの分析は、VLMの推論能力の堅牢性を研究する必要性を強調し、DynaMathは数学的推論のためのより信頼性の高いモデルの開発を指針とするための貴重な示唆を提供します。
English
The rapid advancements in Vision-Language Models (VLMs) have shown great
potential in tackling mathematical reasoning tasks that involve visual context.
Unlike humans who can reliably apply solution steps to similar problems with
minor modifications, we found that SOTA VLMs like GPT-4o can consistently fail
in these scenarios, revealing limitations in their mathematical reasoning
capabilities. In this paper, we investigate the mathematical reasoning
robustness in VLMs and evaluate how well these models perform under different
variants of the same question, such as changes in visual numerical values or
function graphs. While several vision-based math benchmarks have been developed
to assess VLMs' problem-solving capabilities, these benchmarks contain only
static sets of problems and cannot easily evaluate mathematical reasoning
robustness. To fill this gap, we introduce DynaMath, a dynamic visual math
benchmark designed for in-depth assessment of VLMs. DynaMath includes 501
high-quality, multi-topic seed questions, each represented as a Python program.
Those programs are carefully designed and annotated to enable the automatic
generation of a much larger set of concrete questions, including many different
types of visual and textual variations. DynaMath allows us to evaluate the
generalization ability of VLMs, by assessing their performance under varying
input conditions of a seed question. We evaluated 14 SOTA VLMs with 5,010
generated concrete questions. Our results show that the worst-case model
accuracy, defined as the percentage of correctly answered seed questions in all
10 variants, is significantly lower than the average-case accuracy. Our
analysis emphasizes the need to study the robustness of VLMs' reasoning
abilities, and DynaMath provides valuable insights to guide the development of
more reliable models for mathematical reasoning.Summary
AI-Generated Summary