U-MATH : Un banc d'essai de niveau universitaire pour évaluer les compétences mathématiques dans les LLM
U-MATH: A University-Level Benchmark for Evaluating Mathematical Skills in LLMs
December 4, 2024
Auteurs: Konstantin Chernyshev, Vitaliy Polshkov, Ekaterina Artemova, Alex Myasnikov, Vlad Stepanov, Alexei Miasnikov, Sergei Tilga
cs.AI
Résumé
L'évaluation actuelle des compétences mathématiques dans les LLM est limitée, car les références existantes sont soit relativement petites, se concentrent principalement sur des problèmes d'école primaire et secondaire, soit manquent de diversité dans les sujets. De plus, l'inclusion d'éléments visuels dans les tâches reste largement sous-exploitée.
Pour combler ces lacunes, nous présentons U-MATH, un nouveau banc d'essai de 1 100 problèmes universitaires ouverts non publiés provenant de supports pédagogiques. Il est équilibré entre six matières principales, avec 20 % de problèmes multimodaux. Étant donné la nature ouverte des problèmes U-MATH, nous utilisons un LLM pour juger de la justesse des solutions générées. À cette fin, nous publions mu-MATH, un ensemble de données pour évaluer les capacités des LLM à juger des solutions.
L'évaluation des LLM de domaine général, spécifiques aux mathématiques et multimodaux met en lumière les défis posés par U-MATH. Nos résultats révèlent que les LLM n'atteignent qu'une précision maximale de 63 % sur les tâches basées sur du texte, avec seulement 45 % sur les problèmes visuels. L'évaluation des solutions s'avère difficile pour les LLM, le meilleur juge LLM ayant un score F1 de 80 % sur mu-MATH.
English
The current evaluation of mathematical skills in LLMs is limited, as existing
benchmarks are either relatively small, primarily focus on elementary and
high-school problems, or lack diversity in topics. Additionally, the inclusion
of visual elements in tasks remains largely under-explored.
To address these gaps, we introduce U-MATH, a novel benchmark of 1,100
unpublished open-ended university-level problems sourced from teaching
materials. It is balanced across six core subjects, with 20% of multimodal
problems. Given the open-ended nature of U-MATH problems, we employ an LLM to
judge the correctness of generated solutions. To this end, we release
mu-MATH, a dataset to evaluate the LLMs' capabilities in judging solutions.
The evaluation of general domain, math-specific, and multimodal LLMs
highlights the challenges presented by U-MATH. Our findings reveal that LLMs
achieve a maximum accuracy of only 63% on text-based tasks, with even lower 45%
on visual problems. The solution assessment proves challenging for LLMs, with
the best LLM judge having an F1-score of 80% on mu-MATH.Summary
AI-Generated Summary