MathVerse: あなたのマルチモーダルLLMは視覚数学問題の図を本当に理解しているか?
MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?
March 21, 2024
著者: Renrui Zhang, Dongzhi Jiang, Yichi Zhang, Haokun Lin, Ziyu Guo, Pengshuo Qiu, Aojun Zhou, Pan Lu, Kai-Wei Chang, Peng Gao, Hongsheng Li
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLMs)の顕著な進展は、視覚的コンテキストにおける優れた性能により、比類のない注目を集めている。しかし、視覚的数学問題解決におけるその能力は、十分に評価・理解されていない。我々は、現在のベンチマークを調査し、テキスト問題内に過剰な視覚的コンテンツを取り込むことで、MLLMsが入力図を真に解釈せずに答えを推測する可能性があることを明らかにした。この目的のために、我々はMathVerseを導入する。これは、MLLMsの公平かつ詳細な評価のために設計された包括的な視覚数学ベンチマークである。我々は、公開されているソースから2,612の高品質な多科目数学問題と図を慎重に収集した。各問題は、人間のアノテーターによって6つの異なるバージョンに変換され、それぞれが多モダリティにおける情報量の異なる度合いを提供し、合計15Kのテストサンプルを構成する。このアプローチにより、MathVerseは、MLLMsが数学的推論のために視覚図を真に理解できるかどうか、そしてどの程度理解できるかを包括的に評価することができる。さらに、我々は、出力された答えの詳細な評価のためのChain-of-Thought(CoT)評価戦略を提案する。単純に正誤を判断するのではなく、GPT-4(V)を使用して重要な推論ステップを適応的に抽出し、各ステップを詳細なエラー分析でスコアリングする。これにより、MLLMsによる中間的なCoT推論の質を明らかにすることができる。我々は、MathVerseベンチマークが、MLLMsの将来の開発を導くための独自の洞察を提供することを期待する。プロジェクトページ: https://mathverse-cuhk.github.io
English
The remarkable progress of Multi-modal Large Language Models (MLLMs) has
garnered unparalleled attention, due to their superior performance in visual
contexts. However, their capabilities in visual math problem-solving remain
insufficiently evaluated and understood. We investigate current benchmarks to
incorporate excessive visual content within textual questions, which
potentially assist MLLMs in deducing answers without truly interpreting the
input diagrams. To this end, we introduce MathVerse, an all-around visual math
benchmark designed for an equitable and in-depth evaluation of MLLMs. We
meticulously collect 2,612 high-quality, multi-subject math problems with
diagrams from publicly available sources. Each problem is then transformed by
human annotators into six distinct versions, each offering varying degrees of
information content in multi-modality, contributing to 15K test samples in
total. This approach allows MathVerse to comprehensively assess whether and how
much MLLMs can truly understand the visual diagrams for mathematical reasoning.
In addition, we propose a Chain-of-Thought (CoT) evaluation strategy for a
fine-grained assessment of the output answers. Rather than naively judging True
or False, we employ GPT-4(V) to adaptively extract crucial reasoning steps, and
then score each step with detailed error analysis, which can reveal the
intermediate CoT reasoning quality by MLLMs. We hope the MathVerse benchmark
may provide unique insights to guide the future development of MLLMs. Project
page: https://mathverse-cuhk.github.ioSummary
AI-Generated Summary