U-MATH: Ein Benchmark auf Universitätsniveau zur Bewertung mathematischer Fähigkeiten bei LLMs
U-MATH: A University-Level Benchmark for Evaluating Mathematical Skills in LLMs
December 4, 2024
Autoren: Konstantin Chernyshev, Vitaliy Polshkov, Ekaterina Artemova, Alex Myasnikov, Vlad Stepanov, Alexei Miasnikov, Sergei Tilga
cs.AI
Zusammenfassung
Die aktuelle Bewertung mathematischer Fähigkeiten in LLMs ist begrenzt, da bestehende Referenzwerte entweder relativ klein sind, hauptsächlich auf elementare und weiterführende Schulprobleme ausgerichtet sind oder Vielfalt in den Themen vermissen lassen. Darüber hinaus bleibt die Einbeziehung visueller Elemente in Aufgaben weitgehend unerforscht.
Um diese Lücken zu schließen, führen wir U-MATH ein, einen neuartigen Benchmark mit 1.100 unveröffentlichten offenen Problemen auf Universitätsniveau, die aus Lehrmaterialien stammen. Er ist ausgewogen auf sechs Kernfächer verteilt, wobei 20% multimodale Probleme umfassen. Angesichts des offenen Charakters der U-MATH-Probleme setzen wir einen LLM ein, um die Richtigkeit der generierten Lösungen zu beurteilen. Zu diesem Zweck veröffentlichen wir mu-MATH, einen Datensatz zur Bewertung der Fähigkeiten von LLMs bei der Beurteilung von Lösungen.
Die Bewertung von allgemeinen, mathematikspezifischen und multimodalen LLMs verdeutlicht die Herausforderungen, die U-MATH darstellt. Unsere Ergebnisse zeigen, dass LLMs eine maximale Genauigkeit von nur 63% bei textbasierten Aufgaben erreichen, wobei sie bei visuellen Problemen sogar nur 45% erreichen. Die Bewertung von Lösungen erweist sich für LLMs als anspruchsvoll, wobei der beste LLM-Richter einen F1-Score von 80% bei mu-MATH aufweist.
English
The current evaluation of mathematical skills in LLMs is limited, as existing
benchmarks are either relatively small, primarily focus on elementary and
high-school problems, or lack diversity in topics. Additionally, the inclusion
of visual elements in tasks remains largely under-explored.
To address these gaps, we introduce U-MATH, a novel benchmark of 1,100
unpublished open-ended university-level problems sourced from teaching
materials. It is balanced across six core subjects, with 20% of multimodal
problems. Given the open-ended nature of U-MATH problems, we employ an LLM to
judge the correctness of generated solutions. To this end, we release
mu-MATH, a dataset to evaluate the LLMs' capabilities in judging solutions.
The evaluation of general domain, math-specific, and multimodal LLMs
highlights the challenges presented by U-MATH. Our findings reveal that LLMs
achieve a maximum accuracy of only 63% on text-based tasks, with even lower 45%
on visual problems. The solution assessment proves challenging for LLMs, with
the best LLM judge having an F1-score of 80% on mu-MATH.Summary
AI-Generated Summary