ChatPaper.aiChatPaper

U-MATH: Een benchmark op universitair niveau voor het evalueren van wiskundige vaardigheden in LLM's.

U-MATH: A University-Level Benchmark for Evaluating Mathematical Skills in LLMs

December 4, 2024
Auteurs: Konstantin Chernyshev, Vitaliy Polshkov, Ekaterina Artemova, Alex Myasnikov, Vlad Stepanov, Alexei Miasnikov, Sergei Tilga
cs.AI

Samenvatting

De huidige evaluatie van wiskundige vaardigheden in LLM's is beperkt, aangezien bestaande maatstaven ofwel relatief klein zijn, zich voornamelijk richten op elementaire en middelbare school problemen, of diversiteit in onderwerpen missen. Bovendien blijft de inclusie van visuele elementen in taken grotendeels onverkend. Om deze lacunes aan te pakken, introduceren we U-MATH, een nieuw benchmark van 1.100 ongepubliceerde open-eind universitair niveau problemen afkomstig van lesmateriaal. Het is gebalanceerd over zes kernvakken, met 20% multimodale problemen. Gezien de open-eind aard van U-MATH problemen, gebruiken we een LLM om de juistheid van gegenereerde oplossingen te beoordelen. Hiertoe brengen we mu-MATH uit, een dataset om de capaciteiten van LLM's in het beoordelen van oplossingen te evalueren. De evaluatie van algemene domein-, wiskunde-specifieke en multimodale LLM's benadrukt de uitdagingen die U-MATH met zich meebrengt. Onze bevindingen tonen aan dat LLM's slechts een maximale nauwkeurigheid van 63% behalen op op tekst gebaseerde taken, met zelfs een nog lagere 45% op visuele problemen. De beoordeling van oplossingen blijkt uitdagend voor LLM's, waarbij de beste LLM-beoordelaar een F1-score van 80% behaalt op mu-MATH.
English
The current evaluation of mathematical skills in LLMs is limited, as existing benchmarks are either relatively small, primarily focus on elementary and high-school problems, or lack diversity in topics. Additionally, the inclusion of visual elements in tasks remains largely under-explored. To address these gaps, we introduce U-MATH, a novel benchmark of 1,100 unpublished open-ended university-level problems sourced from teaching materials. It is balanced across six core subjects, with 20% of multimodal problems. Given the open-ended nature of U-MATH problems, we employ an LLM to judge the correctness of generated solutions. To this end, we release mu-MATH, a dataset to evaluate the LLMs' capabilities in judging solutions. The evaluation of general domain, math-specific, and multimodal LLMs highlights the challenges presented by U-MATH. Our findings reveal that LLMs achieve a maximum accuracy of only 63% on text-based tasks, with even lower 45% on visual problems. The solution assessment proves challenging for LLMs, with the best LLM judge having an F1-score of 80% on mu-MATH.

Summary

AI-Generated Summary

PDF162December 5, 2024