MathVerse: Seu Modelo de Linguagem Multimodal Realmente Compreende os Diagramas em Problemas Visuais de Matemática?
MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?
March 21, 2024
Autores: Renrui Zhang, Dongzhi Jiang, Yichi Zhang, Haokun Lin, Ziyu Guo, Pengshuo Qiu, Aojun Zhou, Pan Lu, Kai-Wei Chang, Peng Gao, Hongsheng Li
cs.AI
Resumo
O progresso notável dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) tem atraído uma atenção sem precedentes, devido ao seu desempenho superior em contextos visuais. No entanto, suas capacidades na resolução de problemas matemáticos visuais ainda não foram suficientemente avaliadas e compreendidas. Investigamos os benchmarks atuais, que incorporam conteúdo visual excessivo em questões textuais, o que potencialmente auxilia os MLLMs a deduzir respostas sem realmente interpretar os diagramas de entrada. Para isso, introduzimos o MathVerse, um benchmark visual de matemática abrangente, projetado para uma avaliação equitativa e aprofundada dos MLLMs. Coletamos meticulosamente 2.612 problemas matemáticos de alta qualidade e multidisciplinares com diagramas, provenientes de fontes publicamente disponíveis. Cada problema é então transformado por anotadores humanos em seis versões distintas, cada uma oferecendo diferentes graus de conteúdo informativo em multimodalidade, totalizando 15 mil amostras de teste. Essa abordagem permite que o MathVerse avalie de forma abrangente se e quanto os MLLMs podem realmente compreender os diagramas visuais para o raciocínio matemático. Além disso, propomos uma estratégia de avaliação de Cadeia de Pensamento (CoT) para uma avaliação refinada das respostas geradas. Em vez de julgar de forma simplista como Verdadeiro ou Falso, empregamos o GPT-4(V) para extrair adaptativamente etapas cruciais de raciocínio e, em seguida, pontuar cada etapa com uma análise detalhada de erros, o que pode revelar a qualidade intermediária do raciocínio CoT pelos MLLMs. Esperamos que o benchmark MathVerse possa fornecer insights únicos para orientar o desenvolvimento futuro dos MLLMs. Página do projeto: https://mathverse-cuhk.github.io
English
The remarkable progress of Multi-modal Large Language Models (MLLMs) has
garnered unparalleled attention, due to their superior performance in visual
contexts. However, their capabilities in visual math problem-solving remain
insufficiently evaluated and understood. We investigate current benchmarks to
incorporate excessive visual content within textual questions, which
potentially assist MLLMs in deducing answers without truly interpreting the
input diagrams. To this end, we introduce MathVerse, an all-around visual math
benchmark designed for an equitable and in-depth evaluation of MLLMs. We
meticulously collect 2,612 high-quality, multi-subject math problems with
diagrams from publicly available sources. Each problem is then transformed by
human annotators into six distinct versions, each offering varying degrees of
information content in multi-modality, contributing to 15K test samples in
total. This approach allows MathVerse to comprehensively assess whether and how
much MLLMs can truly understand the visual diagrams for mathematical reasoning.
In addition, we propose a Chain-of-Thought (CoT) evaluation strategy for a
fine-grained assessment of the output answers. Rather than naively judging True
or False, we employ GPT-4(V) to adaptively extract crucial reasoning steps, and
then score each step with detailed error analysis, which can reveal the
intermediate CoT reasoning quality by MLLMs. We hope the MathVerse benchmark
may provide unique insights to guide the future development of MLLMs. Project
page: https://mathverse-cuhk.github.io