MathVerse: Ваш многофункциональный LLM действительно видит диаграммы в визуальных математических задачах?
MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?
March 21, 2024
Авторы: Renrui Zhang, Dongzhi Jiang, Yichi Zhang, Haokun Lin, Ziyu Guo, Pengshuo Qiu, Aojun Zhou, Pan Lu, Kai-Wei Chang, Peng Gao, Hongsheng Li
cs.AI
Аннотация
Замечательный прогресс Многомодельных Больших Языковых Моделей (MLLMs) привлек несравненное внимание благодаря их превосходной производительности в визуальных контекстах. Однако их способности в решении визуальных математических задач остаются недостаточно изученными и понятыми. Мы исследуем текущие бенчмарки для включения избыточного визуального контента в текстовые вопросы, что потенциально помогает MLLMs выводить ответы, не декодируя входные диаграммы. Для этого мы представляем MathVerse, всесторонний визуальный математический бенчмарк, разработанный для справедливой и глубокой оценки MLLMs. Мы тщательно собрали 2 612 высококачественных многотематических математических задач с диаграммами из общедоступных источников. Каждая задача затем преобразуется человеческими аннотаторами в шесть различных версий, каждая из которых предлагает различные уровни информационного содержания в многомодальности, что дает в общей сложности 15 тыс. тестовых примеров. Такой подход позволяет MathVerse всесторонне оценить, насколько MLLMs действительно могут понимать визуальные диаграммы для математического рассуждения. Кроме того, мы предлагаем стратегию оценки Цепочка Мысли (CoT) для тонкой оценки выходных ответов. Вместо наивного суждения Правда или Ложь, мы используем GPT-4(V) для адаптивного извлечения ключевых шагов рассуждения, а затем оцениваем каждый шаг с детальным анализом ошибок, который может раскрывать качество промежуточного рассуждения CoT MLLMs. Мы надеемся, что бенчмарк MathVerse может предоставить уникальные идеи для руководства будущим развитием MLLMs. Страница проекта: https://mathverse-cuhk.github.io
English
The remarkable progress of Multi-modal Large Language Models (MLLMs) has
garnered unparalleled attention, due to their superior performance in visual
contexts. However, their capabilities in visual math problem-solving remain
insufficiently evaluated and understood. We investigate current benchmarks to
incorporate excessive visual content within textual questions, which
potentially assist MLLMs in deducing answers without truly interpreting the
input diagrams. To this end, we introduce MathVerse, an all-around visual math
benchmark designed for an equitable and in-depth evaluation of MLLMs. We
meticulously collect 2,612 high-quality, multi-subject math problems with
diagrams from publicly available sources. Each problem is then transformed by
human annotators into six distinct versions, each offering varying degrees of
information content in multi-modality, contributing to 15K test samples in
total. This approach allows MathVerse to comprehensively assess whether and how
much MLLMs can truly understand the visual diagrams for mathematical reasoning.
In addition, we propose a Chain-of-Thought (CoT) evaluation strategy for a
fine-grained assessment of the output answers. Rather than naively judging True
or False, we employ GPT-4(V) to adaptively extract crucial reasoning steps, and
then score each step with detailed error analysis, which can reveal the
intermediate CoT reasoning quality by MLLMs. We hope the MathVerse benchmark
may provide unique insights to guide the future development of MLLMs. Project
page: https://mathverse-cuhk.github.ioSummary
AI-Generated Summary