U-MATH: Университетский бенчмарк для оценки математических навыков в LLMs
U-MATH: A University-Level Benchmark for Evaluating Mathematical Skills in LLMs
December 4, 2024
Авторы: Konstantin Chernyshev, Vitaliy Polshkov, Ekaterina Artemova, Alex Myasnikov, Vlad Stepanov, Alexei Miasnikov, Sergei Tilga
cs.AI
Аннотация
Текущая оценка математических навыков в языковых моделях с ограничениями, поскольку существующие эталоны либо относительно небольшие, в основном сосредоточены на элементарных и старших школьных задачах, либо не обладают разнообразием тематики. Кроме того, включение визуальных элементов в задачи остается малоисследованным.
Для устранения этих пробелов мы представляем U-MATH, новый эталон из 1,100 неопубликованных открытых задач университетского уровня, взятых из учебных материалов. Он сбалансирован по шести основным предметам, с 20% мультимодальных задач. Учитывая открытую природу задач U-MATH, мы используем языковую модель для оценки корректности сгенерированных решений. Для этого мы выпускаем mu-MATH, набор данных для оценки способностей языковых моделей в оценке решений.
Оценка общедоменных, математических и мультимодальных языковых моделей подчеркивает вызовы, представленные U-MATH. Наши результаты показывают, что языковые модели достигают максимальной точности всего лишь 63% на текстовых задачах, с еще более низким показателем в 45% на визуальных задачах. Оценка решений оказывается сложной для языковых моделей, лучшая языковая модель-оценщик достигает F1-скора 80% на mu-MATH.
English
The current evaluation of mathematical skills in LLMs is limited, as existing
benchmarks are either relatively small, primarily focus on elementary and
high-school problems, or lack diversity in topics. Additionally, the inclusion
of visual elements in tasks remains largely under-explored.
To address these gaps, we introduce U-MATH, a novel benchmark of 1,100
unpublished open-ended university-level problems sourced from teaching
materials. It is balanced across six core subjects, with 20% of multimodal
problems. Given the open-ended nature of U-MATH problems, we employ an LLM to
judge the correctness of generated solutions. To this end, we release
mu-MATH, a dataset to evaluate the LLMs' capabilities in judging solutions.
The evaluation of general domain, math-specific, and multimodal LLMs
highlights the challenges presented by U-MATH. Our findings reveal that LLMs
achieve a maximum accuracy of only 63% on text-based tasks, with even lower 45%
on visual problems. The solution assessment proves challenging for LLMs, with
the best LLM judge having an F1-score of 80% on mu-MATH.Summary
AI-Generated Summary