U-MATH : Un banc d'essai de niveau universitaire pour évaluer les compétences mathématiques dans les LLM

papers.abstract

L'évaluation actuelle des compétences mathématiques dans les LLM est limitée, car les références existantes sont soit relativement petites, se concentrent principalement sur des problèmes d'école primaire et secondaire, soit manquent de diversité dans les sujets. De plus, l'inclusion d'éléments visuels dans les tâches reste largement sous-exploitée. Pour combler ces lacunes, nous présentons U-MATH, un nouveau banc d'essai de 1 100 problèmes universitaires ouverts non publiés provenant de supports pédagogiques. Il est équilibré entre six matières principales, avec 20 % de problèmes multimodaux. Étant donné la nature ouverte des problèmes U-MATH, nous utilisons un LLM pour juger de la justesse des solutions générées. À cette fin, nous publions mu-MATH, un ensemble de données pour évaluer les capacités des LLM à juger des solutions. L'évaluation des LLM de domaine général, spécifiques aux mathématiques et multimodaux met en lumière les défis posés par U-MATH. Nos résultats révèlent que les LLM n'atteignent qu'une précision maximale de 63 % sur les tâches basées sur du texte, avec seulement 45 % sur les problèmes visuels. L'évaluation des solutions s'avère difficile pour les LLM, le meilleur juge LLM ayant un score F1 de 80 % sur mu-MATH.

English

The current evaluation of mathematical skills in LLMs is limited, as existing benchmarks are either relatively small, primarily focus on elementary and high-school problems, or lack diversity in topics. Additionally, the inclusion of visual elements in tasks remains largely under-explored. To address these gaps, we introduce U-MATH, a novel benchmark of 1,100 unpublished open-ended university-level problems sourced from teaching materials. It is balanced across six core subjects, with 20% of multimodal problems. Given the open-ended nature of U-MATH problems, we employ an LLM to judge the correctness of generated solutions. To this end, we release mu-MATH, a dataset to evaluate the LLMs' capabilities in judging solutions. The evaluation of general domain, math-specific, and multimodal LLMs highlights the challenges presented by U-MATH. Our findings reveal that LLMs achieve a maximum accuracy of only 63% on text-based tasks, with even lower 45% on visual problems. The solution assessment proves challenging for LLMs, with the best LLM judge having an F1-score of 80% on mu-MATH.

U-MATH : Un banc d'essai de niveau universitaire pour évaluer les compétences mathématiques dans les LLM

U-MATH: A University-Level Benchmark for Evaluating Mathematical Skills in LLMs

papers.abstract

Support