Desafiando los límites del razonamiento: Un punto de referencia olímpico en matemáticas para modelos de lenguaje de gran escala
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models
March 27, 2025
Autores: Haoxiang Sun, Yingqian Min, Zhipeng Chen, Wayne Xin Zhao, Zheng Liu, Zhongyuan Wang, Lei Fang, Ji-Rong Wen
cs.AI
Resumen
En los últimos años, el rápido desarrollo de modelos de razonamiento a gran escala ha llevado a la saturación de los benchmarks existentes para evaluar el razonamiento matemático, destacando la urgente necesidad de marcos de evaluación más desafiantes y rigurosos. Para abordar esta brecha, presentamos OlymMATH, un novedoso benchmark matemático de nivel olímpico, diseñado para evaluar rigurosamente las capacidades de razonamiento complejo de los LLMs. OlymMATH incluye 200 problemas cuidadosamente seleccionados, cada uno verificado manualmente y disponible en versiones paralelas en inglés y chino. Los problemas están organizados sistemáticamente en dos niveles de dificultad distintos: (1) problemas de nivel AIME (fáciles) que establecen una línea base para la evaluación del razonamiento matemático, y (2) problemas significativamente más desafiantes (difíciles) diseñados para superar los límites de los modelos más avanzados actuales. En nuestro benchmark, estos problemas abarcan cuatro campos matemáticos principales, cada uno incluyendo una solución numérica verificable para permitir una evaluación objetiva basada en reglas. Los resultados empíricos subrayan el desafío significativo que presenta OlymMATH, con modelos de última generación como DeepSeek-R1 y el o3-mini de OpenAI mostrando una precisión notablemente limitada en el subconjunto de problemas difíciles. Además, el benchmark facilita una evaluación bilingüe integral de las habilidades de razonamiento matemático, una dimensión crítica que sigue siendo en gran medida desatendida en los benchmarks de razonamiento matemático convencionales. Publicamos el benchmark OlymMATH en el proyecto STILL: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.
English
In recent years, the rapid development of large reasoning models has resulted
in the saturation of existing benchmarks for evaluating mathematical reasoning,
highlighting the urgent need for more challenging and rigorous evaluation
frameworks. To address this gap, we introduce OlymMATH, a novel Olympiad-level
mathematical benchmark, designed to rigorously test the complex reasoning
capabilities of LLMs. OlymMATH features 200 meticulously curated problems, each
manually verified and available in parallel English and Chinese versions. The
problems are systematically organized into two distinct difficulty tiers: (1)
AIME-level problems (easy) that establish a baseline for mathematical reasoning
assessment, and (2) significantly more challenging problems (hard) designed to
push the boundaries of current state-of-the-art models. In our benchmark, these
problems span four core mathematical fields, each including a verifiable
numerical solution to enable objective, rule-based evaluation. Empirical
results underscore the significant challenge presented by OlymMATH, with
state-of-the-art models including DeepSeek-R1 and OpenAI's o3-mini
demonstrating notably limited accuracy on the hard subset. Furthermore, the
benchmark facilitates comprehensive bilingual assessment of mathematical
reasoning abilities-a critical dimension that remains largely unaddressed in
mainstream mathematical reasoning benchmarks. We release the OlymMATH benchmark
at the STILL project: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.Summary
AI-Generated Summary