MathVerse: あなたのマルチモーダルLLMは視覚数学問題の図を本当に理解しているか?MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual
Math Problems?
マルチモーダル大規模言語モデル(MLLMs)の顕著な進展は、視覚的コンテキストにおける優れた性能により、比類のない注目を集めている。しかし、視覚的数学問題解決におけるその能力は、十分に評価・理解されていない。我々は、現在のベンチマークを調査し、テキスト問題内に過剰な視覚的コンテンツを取り込むことで、MLLMsが入力図を真に解釈せずに答えを推測する可能性があることを明らかにした。この目的のために、我々はMathVerseを導入する。これは、MLLMsの公平かつ詳細な評価のために設計された包括的な視覚数学ベンチマークである。我々は、公開されているソースから2,612の高品質な多科目数学問題と図を慎重に収集した。各問題は、人間のアノテーターによって6つの異なるバージョンに変換され、それぞれが多モダリティにおける情報量の異なる度合いを提供し、合計15Kのテストサンプルを構成する。このアプローチにより、MathVerseは、MLLMsが数学的推論のために視覚図を真に理解できるかどうか、そしてどの程度理解できるかを包括的に評価することができる。さらに、我々は、出力された答えの詳細な評価のためのChain-of-Thought(CoT)評価戦略を提案する。単純に正誤を判断するのではなく、GPT-4(V)を使用して重要な推論ステップを適応的に抽出し、各ステップを詳細なエラー分析でスコアリングする。これにより、MLLMsによる中間的なCoT推論の質を明らかにすることができる。我々は、MathVerseベンチマークが、MLLMsの将来の開発を導くための独自の洞察を提供することを期待する。プロジェクトページ: https://mathverse-cuhk.github.io