MathVerse: Ваш многофункциональный LLM действительно видит диаграммы в визуальных математических задачах?MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual
Math Problems?
Замечательный прогресс Многомодельных Больших Языковых Моделей (MLLMs) привлек несравненное внимание благодаря их превосходной производительности в визуальных контекстах. Однако их способности в решении визуальных математических задач остаются недостаточно изученными и понятыми. Мы исследуем текущие бенчмарки для включения избыточного визуального контента в текстовые вопросы, что потенциально помогает MLLMs выводить ответы, не декодируя входные диаграммы. Для этого мы представляем MathVerse, всесторонний визуальный математический бенчмарк, разработанный для справедливой и глубокой оценки MLLMs. Мы тщательно собрали 2 612 высококачественных многотематических математических задач с диаграммами из общедоступных источников. Каждая задача затем преобразуется человеческими аннотаторами в шесть различных версий, каждая из которых предлагает различные уровни информационного содержания в многомодальности, что дает в общей сложности 15 тыс. тестовых примеров. Такой подход позволяет MathVerse всесторонне оценить, насколько MLLMs действительно могут понимать визуальные диаграммы для математического рассуждения. Кроме того, мы предлагаем стратегию оценки Цепочка Мысли (CoT) для тонкой оценки выходных ответов. Вместо наивного суждения Правда или Ложь, мы используем GPT-4(V) для адаптивного извлечения ключевых шагов рассуждения, а затем оцениваем каждый шаг с детальным анализом ошибок, который может раскрывать качество промежуточного рассуждения CoT MLLMs. Мы надеемся, что бенчмарк MathVerse может предоставить уникальные идеи для руководства будущим развитием MLLMs. Страница проекта: https://mathverse-cuhk.github.io