MathVerse : Votre modèle de langage multimodal perçoit-il vraiment les diagrammes dans les problèmes de mathématiques visuels ?
MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?
March 21, 2024
Auteurs: Renrui Zhang, Dongzhi Jiang, Yichi Zhang, Haokun Lin, Ziyu Guo, Pengshuo Qiu, Aojun Zhou, Pan Lu, Kai-Wei Chang, Peng Gao, Hongsheng Li
cs.AI
Résumé
Les progrès remarquables des modèles de langage multi-modaux de grande envergure (MLLMs) ont suscité une attention sans précédent, en raison de leurs performances supérieures dans des contextes visuels. Cependant, leurs capacités en résolution de problèmes mathématiques visuels restent insuffisamment évaluées et comprises. Nous examinons les benchmarks actuels qui intègrent un contenu visuel excessif dans les questions textuelles, ce qui pourrait potentiellement aider les MLLMs à déduire des réponses sans véritablement interpréter les diagrammes en entrée. À cette fin, nous introduisons MathVerse, un benchmark visuel complet de mathématiques conçu pour une évaluation équitable et approfondie des MLLMs. Nous avons méticuleusement collecté 2 612 problèmes de mathématiques de haute qualité, couvrant plusieurs sujets et accompagnés de diagrammes, provenant de sources publiquement disponibles. Chaque problème est ensuite transformé par des annotateurs humains en six versions distinctes, chacune offrant des degrés variables de contenu informationnel en multi-modalité, contribuant à un total de 15 000 échantillons de test. Cette approche permet à MathVerse d'évaluer de manière exhaustive si et dans quelle mesure les MLLMs peuvent véritablement comprendre les diagrammes visuels pour le raisonnement mathématique. En outre, nous proposons une stratégie d'évaluation en chaîne de pensée (CoT) pour une évaluation fine des réponses produites. Plutôt que de juger simplement Vrai ou Faux, nous utilisons GPT-4(V) pour extraire de manière adaptative les étapes cruciales du raisonnement, puis noter chaque étape avec une analyse détaillée des erreurs, ce qui peut révéler la qualité intermédiaire du raisonnement CoT par les MLLMs. Nous espérons que le benchmark MathVerse pourra fournir des insights uniques pour guider le développement futur des MLLMs. Page du projet : https://mathverse-cuhk.github.io
English
The remarkable progress of Multi-modal Large Language Models (MLLMs) has
garnered unparalleled attention, due to their superior performance in visual
contexts. However, their capabilities in visual math problem-solving remain
insufficiently evaluated and understood. We investigate current benchmarks to
incorporate excessive visual content within textual questions, which
potentially assist MLLMs in deducing answers without truly interpreting the
input diagrams. To this end, we introduce MathVerse, an all-around visual math
benchmark designed for an equitable and in-depth evaluation of MLLMs. We
meticulously collect 2,612 high-quality, multi-subject math problems with
diagrams from publicly available sources. Each problem is then transformed by
human annotators into six distinct versions, each offering varying degrees of
information content in multi-modality, contributing to 15K test samples in
total. This approach allows MathVerse to comprehensively assess whether and how
much MLLMs can truly understand the visual diagrams for mathematical reasoning.
In addition, we propose a Chain-of-Thought (CoT) evaluation strategy for a
fine-grained assessment of the output answers. Rather than naively judging True
or False, we employ GPT-4(V) to adaptively extract crucial reasoning steps, and
then score each step with detailed error analysis, which can reveal the
intermediate CoT reasoning quality by MLLMs. We hope the MathVerse benchmark
may provide unique insights to guide the future development of MLLMs. Project
page: https://mathverse-cuhk.github.ioSummary
AI-Generated Summary