MathVerse: Sieht Ihr Multi-modal LLM wirklich die Diagramme in visuellen Mathematikaufgaben?
MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?
March 21, 2024
Autoren: Renrui Zhang, Dongzhi Jiang, Yichi Zhang, Haokun Lin, Ziyu Guo, Pengshuo Qiu, Aojun Zhou, Pan Lu, Kai-Wei Chang, Peng Gao, Hongsheng Li
cs.AI
Zusammenfassung
Der bemerkenswerte Fortschritt von Multi-modalen Großen Sprachmodellen (MLLMs) hat aufgrund ihrer überragenden Leistung in visuellen Kontexten beispiellose Aufmerksamkeit erregt. Ihre Fähigkeiten zur Lösung visueller mathematischer Probleme sind jedoch unzureichend bewertet und verstanden. Wir untersuchen aktuelle Benchmarks, um übermäßige visuelle Inhalte in textuellen Fragen zu integrieren, die möglicherweise MLLMs dabei unterstützen, Antworten abzuleiten, ohne die Eingabediagramme wirklich zu interpretieren. Zu diesem Zweck stellen wir MathVerse vor, einen umfassenden visuellen Mathematik-Benchmark, der für eine gerechte und eingehende Bewertung von MLLMs konzipiert ist. Wir sammeln sorgfältig 2.612 hochwertige, multi-subjektive Mathematikprobleme mit Diagrammen aus öffentlich verfügbaren Quellen. Jedes Problem wird dann von menschlichen Annotatoren in sechs verschiedene Versionen umgewandelt, die jeweils unterschiedliche Informationsgehalte in Multi-Modalität bieten und insgesamt zu 15.000 Testbeispielen beitragen. Dieser Ansatz ermöglicht es MathVerse, umfassend zu bewerten, ob und inwieweit MLLMs die visuellen Diagramme für mathematisches Denken wirklich verstehen können. Darüber hinaus schlagen wir eine Chain-of-Thought (CoT) Bewertungsstrategie für eine fein abgestufte Bewertung der Ausgabeanworten vor. Anstatt naiv wahr oder falsch zu beurteilen, verwenden wir GPT-4(V), um entscheidende Denkschritte adaptiv zu extrahieren und dann jeden Schritt mit einer detaillierten Fehleranalyse zu bewerten, die die Zwischenqualität des CoT-Denkens durch MLLMs aufdecken kann. Wir hoffen, dass der MathVerse-Benchmark einzigartige Einblicke liefern kann, um die zukünftige Entwicklung von MLLMs zu lenken. Projektseite: https://mathverse-cuhk.github.io
English
The remarkable progress of Multi-modal Large Language Models (MLLMs) has
garnered unparalleled attention, due to their superior performance in visual
contexts. However, their capabilities in visual math problem-solving remain
insufficiently evaluated and understood. We investigate current benchmarks to
incorporate excessive visual content within textual questions, which
potentially assist MLLMs in deducing answers without truly interpreting the
input diagrams. To this end, we introduce MathVerse, an all-around visual math
benchmark designed for an equitable and in-depth evaluation of MLLMs. We
meticulously collect 2,612 high-quality, multi-subject math problems with
diagrams from publicly available sources. Each problem is then transformed by
human annotators into six distinct versions, each offering varying degrees of
information content in multi-modality, contributing to 15K test samples in
total. This approach allows MathVerse to comprehensively assess whether and how
much MLLMs can truly understand the visual diagrams for mathematical reasoning.
In addition, we propose a Chain-of-Thought (CoT) evaluation strategy for a
fine-grained assessment of the output answers. Rather than naively judging True
or False, we employ GPT-4(V) to adaptively extract crucial reasoning steps, and
then score each step with detailed error analysis, which can reveal the
intermediate CoT reasoning quality by MLLMs. We hope the MathVerse benchmark
may provide unique insights to guide the future development of MLLMs. Project
page: https://mathverse-cuhk.github.ioSummary
AI-Generated Summary