MathVerse: 당신의 멀티모달 LLM이 시각적 수학 문제의 도형을 진정으로 이해하는가?
MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?
March 21, 2024
저자: Renrui Zhang, Dongzhi Jiang, Yichi Zhang, Haokun Lin, Ziyu Guo, Pengshuo Qiu, Aojun Zhou, Pan Lu, Kai-Wei Chang, Peng Gao, Hongsheng Li
cs.AI
초록
다중 모달 대형 언어 모델(MLLMs)의 놀라운 발전은 시각적 맥락에서의 우수한 성능으로 인해 전례 없는 관심을 받고 있습니다. 그러나 시각적 수학 문제 해결에서의 능력은 아직 충분히 평가되고 이해되지 못하고 있습니다. 우리는 현재 벤치마크를 조사하여 텍스트 질문 내에 과도한 시각적 내용을 포함시키는 것이 MLLMs가 입력된 다이어그램을 진정으로 해석하지 않고도 답을 추론하는 데 도움을 줄 수 있다는 점을 발견했습니다. 이를 위해 우리는 MLLMs의 공정하고 심층적인 평가를 위해 설계된 포괄적인 시각적 수학 벤치마크인 MathVerse를 소개합니다. 우리는 공개적으로 이용 가능한 소스에서 2,612개의 고품질 다중 주제 수학 문제와 다이어그램을 꼼꼼히 수집했습니다. 각 문제는 인간 주석자에 의해 6개의 서로 다른 버전으로 변환되며, 각 버전은 다중 모달리티에서 다양한 정도의 정보 내용을 제공하여 총 15,000개의 테스트 샘플을 구성합니다. 이 접근 방식은 MathVerse가 MLLMs가 수학적 추론을 위해 시각적 다이어그램을 진정으로 이해할 수 있는지, 그리고 얼마나 이해하는지를 포괄적으로 평가할 수 있게 합니다. 또한, 우리는 출력 답변의 세밀한 평가를 위한 Chain-of-Thought(CoT) 평가 전략을 제안합니다. 단순히 참 또는 거짓을 판단하는 대신, GPT-4(V)를 사용하여 중요한 추론 단계를 적응적으로 추출한 후 각 단계를 상세한 오류 분석과 함께 점수화함으로써 MLLMs의 중간 CoT 추론 품질을 드러낼 수 있습니다. 우리는 MathVerse 벤치마크가 MLLMs의 미래 발전을 이끌기 위한 독특한 통찰력을 제공할 수 있기를 바랍니다. 프로젝트 페이지: https://mathverse-cuhk.github.io
English
The remarkable progress of Multi-modal Large Language Models (MLLMs) has
garnered unparalleled attention, due to their superior performance in visual
contexts. However, their capabilities in visual math problem-solving remain
insufficiently evaluated and understood. We investigate current benchmarks to
incorporate excessive visual content within textual questions, which
potentially assist MLLMs in deducing answers without truly interpreting the
input diagrams. To this end, we introduce MathVerse, an all-around visual math
benchmark designed for an equitable and in-depth evaluation of MLLMs. We
meticulously collect 2,612 high-quality, multi-subject math problems with
diagrams from publicly available sources. Each problem is then transformed by
human annotators into six distinct versions, each offering varying degrees of
information content in multi-modality, contributing to 15K test samples in
total. This approach allows MathVerse to comprehensively assess whether and how
much MLLMs can truly understand the visual diagrams for mathematical reasoning.
In addition, we propose a Chain-of-Thought (CoT) evaluation strategy for a
fine-grained assessment of the output answers. Rather than naively judging True
or False, we employ GPT-4(V) to adaptively extract crucial reasoning steps, and
then score each step with detailed error analysis, which can reveal the
intermediate CoT reasoning quality by MLLMs. We hope the MathVerse benchmark
may provide unique insights to guide the future development of MLLMs. Project
page: https://mathverse-cuhk.github.ioSummary
AI-Generated Summary