MathVerse:您的多模式LLM是否真正看到了视觉数学问题中的图表?MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual
Math Problems?
多模式大型语言模型(MLLMs)取得了显著进展,在视觉背景下表现出卓越性能,因此受到了空前关注。然而,它们在视觉数学问题解决方面的能力尚未得到充分评估和理解。我们调查了当前的基准测试,以在文本问题中包含过多的视觉内容,这可能有助于MLLMs在不真正解释输入图表的情况下推断答案。为此,我们引入了MathVerse,这是一个全面的视觉数学基准测试,旨在公平而深入地评估MLLMs。我们精心收集了来自公开来源的2,612个高质量、多学科的数学问题,并由人类注释员将每个问题转换为六个不同版本,每个版本提供不同程度的多模态信息内容,共贡献了15K个测试样本。这种方法使MathVerse能够全面评估MLLMs是否真正理解数学推理中的视觉图表,以及它们理解的程度。此外,我们提出了一种“思维链”(CoT)评估策略,用于对输出答案进行细粒度评估。我们不是简单地判断真或假,而是使用GPT-4(V)自适应地提取关键推理步骤,然后对每个步骤进行详细的错误分析,这可以揭示MLLMs的中间CoT推理质量。我们希望MathVerse基准测试可以提供独特的见解,指导未来MLLMs的发展。项目页面:https://mathverse-cuhk.github.io