We-Math: あなたの大規模マルチモーダルモデルは人間のような数学的推論を実現していますか?We-Math: Does Your Large Multimodal Model Achieve Human-like
Mathematical Reasoning?
視覚的数学的推論は、基本的な視覚的推論能力として、大規模マルチモーダルモデル(LMMs)コミュニティから広く注目を集めています。既存のベンチマーク、例えばMathVistaやMathVerseは、結果指向のパフォーマンスに焦点を当てる一方で、知識獲得と一般化における基本原理を軽視しています。人間のような数学的推論にインスパイアされ、我々はエンドツーエンドのパフォーマンスを超えた問題解決の原理を探求するために特別に設計された最初のベンチマークであるWE-MATHを紹介します。我々は6.5Kの視覚的数学問題を慎重に収集し、67の階層的知識概念と5つの知識粒度層に分類しました。複合問題を必要な知識概念に従ってサブ問題に分解し、新しい四次元の指標、すなわち知識不足(IK)、不十分な一般化(IG)、完全な習得(CM)、そして丸暗記(RM)を導入して、LMMsの推論プロセスにおける内在的な問題を階層的に評価します。WE-MATHを用いて、既存のLMMsの視覚的数学的推論を徹底的に評価し、解決ステップと問題固有のパフォーマンスの間に負の相関があることを明らかにしました。LMMsのIK問題は、知識拡張戦略によって効果的に改善できることを確認しました。さらに注目すべきは、GPT-4oの主要な課題がIKからIGに大きく移行し、知識一般化段階に向かって進む最初のLMMとして確立されたことです。対照的に、他のLMMsは丸暗記への顕著な傾向を示しています—それらは複数の知識概念を含む複合問題を正しく解決する一方で、サブ問題には答えられません。我々は、WE-MATHがLMMsの視覚的数学的推論の進歩に向けた新しい道を開くことを期待しています。WE-MATHのデータと評価コードはhttps://github.com/We-Math/We-Mathで利用可能です。