U-MATH: Um Benchmark Universitário para Avaliar Habilidades Matemáticas em LLMs
U-MATH: A University-Level Benchmark for Evaluating Mathematical Skills in LLMs
December 4, 2024
Autores: Konstantin Chernyshev, Vitaliy Polshkov, Ekaterina Artemova, Alex Myasnikov, Vlad Stepanov, Alexei Miasnikov, Sergei Tilga
cs.AI
Resumo
A avaliação atual das habilidades matemáticas em LLMs é limitada, pois os benchmarks existentes são relativamente pequenos, focam principalmente em problemas de nível fundamental e médio, ou carecem de diversidade de tópicos. Além disso, a inclusão de elementos visuais nas tarefas ainda é amplamente inexplorada.
Para abordar essas lacunas, apresentamos o U-MATH, um novo benchmark com 1.100 problemas inéditos de nível universitário obtidos de materiais de ensino. Ele é equilibrado em seis disciplinas principais, com 20% de problemas multimodais. Dada a natureza aberta dos problemas do U-MATH, empregamos um LLM para avaliar a correção das soluções geradas. Para isso, disponibilizamos o mu-MATH, um conjunto de dados para avaliar as capacidades dos LLMs na avaliação de soluções.
A avaliação de LLMs de domínio geral, matemática específica e multimodais destaca os desafios apresentados pelo U-MATH. Nossas descobertas revelam que os LLMs alcançam uma precisão máxima de apenas 63% em tarefas baseadas em texto, com ainda menos 45% em problemas visuais. A avaliação das soluções se mostra desafiadora para os LLMs, sendo que o melhor juiz LLM obteve um escore F1 de 80% no mu-MATH.
English
The current evaluation of mathematical skills in LLMs is limited, as existing
benchmarks are either relatively small, primarily focus on elementary and
high-school problems, or lack diversity in topics. Additionally, the inclusion
of visual elements in tasks remains largely under-explored.
To address these gaps, we introduce U-MATH, a novel benchmark of 1,100
unpublished open-ended university-level problems sourced from teaching
materials. It is balanced across six core subjects, with 20% of multimodal
problems. Given the open-ended nature of U-MATH problems, we employ an LLM to
judge the correctness of generated solutions. To this end, we release
mu-MATH, a dataset to evaluate the LLMs' capabilities in judging solutions.
The evaluation of general domain, math-specific, and multimodal LLMs
highlights the challenges presented by U-MATH. Our findings reveal that LLMs
achieve a maximum accuracy of only 63% on text-based tasks, with even lower 45%
on visual problems. The solution assessment proves challenging for LLMs, with
the best LLM judge having an F1-score of 80% on mu-MATH.Summary
AI-Generated Summary