U-MATH: Un punto de referencia a nivel universitario para evaluar habilidades matemáticas en LLMs
U-MATH: A University-Level Benchmark for Evaluating Mathematical Skills in LLMs
December 4, 2024
Autores: Konstantin Chernyshev, Vitaliy Polshkov, Ekaterina Artemova, Alex Myasnikov, Vlad Stepanov, Alexei Miasnikov, Sergei Tilga
cs.AI
Resumen
La evaluación actual de habilidades matemáticas en LLMs es limitada, ya que los puntos de referencia existentes son relativamente pequeños, se centran principalmente en problemas de escuela primaria y secundaria, o carecen de diversidad en temas. Además, la inclusión de elementos visuales en las tareas sigue siendo en gran medida poco explorada.
Para abordar estas brechas, presentamos U-MATH, un nuevo punto de referencia de 1,100 problemas inéditos de nivel universitario obtenidos de materiales de enseñanza. Está equilibrado en seis materias principales, con un 20% de problemas multimodales. Dada la naturaleza abierta de los problemas de U-MATH, empleamos un LLM para juzgar la corrección de las soluciones generadas. Con este fin, lanzamos mu-MATH, un conjunto de datos para evaluar las capacidades de los LLMs para juzgar soluciones.
La evaluación de LLMs de dominio general, específicos de matemáticas y multimodales destaca los desafíos presentados por U-MATH. Nuestros hallazgos revelan que los LLMs alcanzan una precisión máxima de solo el 63% en tareas basadas en texto, con un aún menor 45% en problemas visuales. La evaluación de soluciones resulta desafiante para los LLMs, siendo el mejor juez LLM con un puntaje F1 del 80% en mu-MATH.
English
The current evaluation of mathematical skills in LLMs is limited, as existing
benchmarks are either relatively small, primarily focus on elementary and
high-school problems, or lack diversity in topics. Additionally, the inclusion
of visual elements in tasks remains largely under-explored.
To address these gaps, we introduce U-MATH, a novel benchmark of 1,100
unpublished open-ended university-level problems sourced from teaching
materials. It is balanced across six core subjects, with 20% of multimodal
problems. Given the open-ended nature of U-MATH problems, we employ an LLM to
judge the correctness of generated solutions. To this end, we release
mu-MATH, a dataset to evaluate the LLMs' capabilities in judging solutions.
The evaluation of general domain, math-specific, and multimodal LLMs
highlights the challenges presented by U-MATH. Our findings reveal that LLMs
achieve a maximum accuracy of only 63% on text-based tasks, with even lower 45%
on visual problems. The solution assessment proves challenging for LLMs, with
the best LLM judge having an F1-score of 80% on mu-MATH.Summary
AI-Generated Summary