MathVerse:您的多模式LLM是否真正看懂視覺數學問題中的圖表?MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual
Math Problems?
多模式大型語言模型(MLLMs)取得了顯著進展,在視覺背景下表現優異,因此受到空前的關注。然而,它們在視覺數學問題解決方面的能力尚未得到充分評估和理解。我們研究目前的基準,將過多的視覺內容融入文本問題中,這有助於MLLMs在不真正解釋輸入圖表的情況下推斷答案。為此,我們引入了MathVerse,這是一個全面的視覺數學基準,旨在公平且深入地評估MLLMs。我們精心收集了2,612個高質量、多學科的數學問題,並從公開來源中獲取了圖表。然後,每個問題由人類標註者轉換為六個不同版本,每個版本在多模式中提供不同程度的信息內容,總共貢獻了15K個測試樣本。這種方法使MathVerse能夠全面評估MLLMs是否真正理解視覺圖表以進行數學推理,以及它們能夠理解多少。此外,我們提出了一種“思維鏈”(CoT)評估策略,用於對輸出答案進行細緻評估。我們不僅僅是天真地判斷真或假,而是使用GPT-4(V)來自適應性地提取關鍵的推理步驟,然後對每個步驟進行詳細的錯誤分析,這可以揭示MLLMs的中間CoT推理質量。我們希望MathVerse基準可以提供獨特的見解,以指導未來MLLMs的發展。項目頁面:https://mathverse-cuhk.github.io