U-MATH: Ein Benchmark auf Universitätsniveau zur Bewertung mathematischer Fähigkeiten bei LLMs

papers.abstract

Die aktuelle Bewertung mathematischer Fähigkeiten in LLMs ist begrenzt, da bestehende Referenzwerte entweder relativ klein sind, hauptsächlich auf elementare und weiterführende Schulprobleme ausgerichtet sind oder Vielfalt in den Themen vermissen lassen. Darüber hinaus bleibt die Einbeziehung visueller Elemente in Aufgaben weitgehend unerforscht. Um diese Lücken zu schließen, führen wir U-MATH ein, einen neuartigen Benchmark mit 1.100 unveröffentlichten offenen Problemen auf Universitätsniveau, die aus Lehrmaterialien stammen. Er ist ausgewogen auf sechs Kernfächer verteilt, wobei 20% multimodale Probleme umfassen. Angesichts des offenen Charakters der U-MATH-Probleme setzen wir einen LLM ein, um die Richtigkeit der generierten Lösungen zu beurteilen. Zu diesem Zweck veröffentlichen wir mu-MATH, einen Datensatz zur Bewertung der Fähigkeiten von LLMs bei der Beurteilung von Lösungen. Die Bewertung von allgemeinen, mathematikspezifischen und multimodalen LLMs verdeutlicht die Herausforderungen, die U-MATH darstellt. Unsere Ergebnisse zeigen, dass LLMs eine maximale Genauigkeit von nur 63% bei textbasierten Aufgaben erreichen, wobei sie bei visuellen Problemen sogar nur 45% erreichen. Die Bewertung von Lösungen erweist sich für LLMs als anspruchsvoll, wobei der beste LLM-Richter einen F1-Score von 80% bei mu-MATH aufweist.

English

The current evaluation of mathematical skills in LLMs is limited, as existing benchmarks are either relatively small, primarily focus on elementary and high-school problems, or lack diversity in topics. Additionally, the inclusion of visual elements in tasks remains largely under-explored. To address these gaps, we introduce U-MATH, a novel benchmark of 1,100 unpublished open-ended university-level problems sourced from teaching materials. It is balanced across six core subjects, with 20% of multimodal problems. Given the open-ended nature of U-MATH problems, we employ an LLM to judge the correctness of generated solutions. To this end, we release mu-MATH, a dataset to evaluate the LLMs' capabilities in judging solutions. The evaluation of general domain, math-specific, and multimodal LLMs highlights the challenges presented by U-MATH. Our findings reveal that LLMs achieve a maximum accuracy of only 63% on text-based tasks, with even lower 45% on visual problems. The solution assessment proves challenging for LLMs, with the best LLM judge having an F1-score of 80% on mu-MATH.

U-MATH: Ein Benchmark auf Universitätsniveau zur Bewertung mathematischer Fähigkeiten bei LLMs

U-MATH: A University-Level Benchmark for Evaluating Mathematical Skills in LLMs

papers.abstract

Support