MathVerse: Il tuo LLM multimodale vede davvero i diagrammi nei problemi di matematica visiva?
MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?
March 21, 2024
Autori: Renrui Zhang, Dongzhi Jiang, Yichi Zhang, Haokun Lin, Ziyu Guo, Pengshuo Qiu, Aojun Zhou, Pan Lu, Kai-Wei Chang, Peng Gao, Hongsheng Li
cs.AI
Abstract
I notevoli progressi dei Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno attirato un'attenzione senza precedenti, grazie alle loro prestazioni superiori in contesti visivi. Tuttavia, le loro capacità nella risoluzione di problemi matematici visivi rimangono insufficientemente valutate e comprese. Investigiamo i benchmark attuali per incorporare contenuti visivi eccessivi all'interno di domande testuali, che potenzialmente assistono gli MLLMs nel dedurre risposte senza interpretare veramente i diagrammi di input. A tal fine, introduciamo MathVerse, un benchmark visivo matematico completo progettato per una valutazione equa e approfondita degli MLLMs. Abbiamo meticolosamente raccolto 2.612 problemi matematici di alta qualità e multi-soggetto con diagrammi da fonti pubblicamente disponibili. Ogni problema è poi trasformato da annotatori umani in sei versioni distinte, ciascuna con diversi gradi di contenuto informativo in multimodalità, contribuendo a un totale di 15.000 campioni di test. Questo approccio permette a MathVerse di valutare in modo completo se e quanto gli MLLMs possono veramente comprendere i diagrammi visivi per il ragionamento matematico. Inoltre, proponiamo una strategia di valutazione a Catena di Pensiero (CoT) per una valutazione granulare delle risposte in output. Piuttosto che giudicare semplicemente Vero o Falso, utilizziamo GPT-4(V) per estrarre in modo adattivo i passaggi cruciali di ragionamento, e poi assegnare un punteggio a ciascun passaggio con un'analisi dettagliata degli errori, che può rivelare la qualità intermedia del ragionamento CoT degli MLLMs. Speriamo che il benchmark MathVerse possa fornire intuizioni uniche per guidare lo sviluppo futuro degli MLLMs. Pagina del progetto: https://mathverse-cuhk.github.io
English
The remarkable progress of Multi-modal Large Language Models (MLLMs) has
garnered unparalleled attention, due to their superior performance in visual
contexts. However, their capabilities in visual math problem-solving remain
insufficiently evaluated and understood. We investigate current benchmarks to
incorporate excessive visual content within textual questions, which
potentially assist MLLMs in deducing answers without truly interpreting the
input diagrams. To this end, we introduce MathVerse, an all-around visual math
benchmark designed for an equitable and in-depth evaluation of MLLMs. We
meticulously collect 2,612 high-quality, multi-subject math problems with
diagrams from publicly available sources. Each problem is then transformed by
human annotators into six distinct versions, each offering varying degrees of
information content in multi-modality, contributing to 15K test samples in
total. This approach allows MathVerse to comprehensively assess whether and how
much MLLMs can truly understand the visual diagrams for mathematical reasoning.
In addition, we propose a Chain-of-Thought (CoT) evaluation strategy for a
fine-grained assessment of the output answers. Rather than naively judging True
or False, we employ GPT-4(V) to adaptively extract crucial reasoning steps, and
then score each step with detailed error analysis, which can reveal the
intermediate CoT reasoning quality by MLLMs. We hope the MathVerse benchmark
may provide unique insights to guide the future development of MLLMs. Project
page: https://mathverse-cuhk.github.io