U-MATH: Un punto de referencia a nivel universitario para evaluar habilidades matemáticas en LLMs

Resumen

La evaluación actual de habilidades matemáticas en LLMs es limitada, ya que los puntos de referencia existentes son relativamente pequeños, se centran principalmente en problemas de escuela primaria y secundaria, o carecen de diversidad en temas. Además, la inclusión de elementos visuales en las tareas sigue siendo en gran medida poco explorada. Para abordar estas brechas, presentamos U-MATH, un nuevo punto de referencia de 1,100 problemas inéditos de nivel universitario obtenidos de materiales de enseñanza. Está equilibrado en seis materias principales, con un 20% de problemas multimodales. Dada la naturaleza abierta de los problemas de U-MATH, empleamos un LLM para juzgar la corrección de las soluciones generadas. Con este fin, lanzamos mu-MATH, un conjunto de datos para evaluar las capacidades de los LLMs para juzgar soluciones. La evaluación de LLMs de dominio general, específicos de matemáticas y multimodales destaca los desafíos presentados por U-MATH. Nuestros hallazgos revelan que los LLMs alcanzan una precisión máxima de solo el 63% en tareas basadas en texto, con un aún menor 45% en problemas visuales. La evaluación de soluciones resulta desafiante para los LLMs, siendo el mejor juez LLM con un puntaje F1 del 80% en mu-MATH.

English

The current evaluation of mathematical skills in LLMs is limited, as existing benchmarks are either relatively small, primarily focus on elementary and high-school problems, or lack diversity in topics. Additionally, the inclusion of visual elements in tasks remains largely under-explored. To address these gaps, we introduce U-MATH, a novel benchmark of 1,100 unpublished open-ended university-level problems sourced from teaching materials. It is balanced across six core subjects, with 20% of multimodal problems. Given the open-ended nature of U-MATH problems, we employ an LLM to judge the correctness of generated solutions. To this end, we release mu-MATH, a dataset to evaluate the LLMs' capabilities in judging solutions. The evaluation of general domain, math-specific, and multimodal LLMs highlights the challenges presented by U-MATH. Our findings reveal that LLMs achieve a maximum accuracy of only 63% on text-based tasks, with even lower 45% on visual problems. The solution assessment proves challenging for LLMs, with the best LLM judge having an F1-score of 80% on mu-MATH.

U-MATH: Un punto de referencia a nivel universitario para evaluar habilidades matemáticas en LLMs

U-MATH: A University-Level Benchmark for Evaluating Mathematical Skills in LLMs

Resumen

Support