Desafiando los límites del razonamiento: Un punto de referencia olímpico en matemáticas para modelos de lenguaje de gran escala

Resumen

En los últimos años, el rápido desarrollo de modelos de razonamiento a gran escala ha llevado a la saturación de los benchmarks existentes para evaluar el razonamiento matemático, destacando la urgente necesidad de marcos de evaluación más desafiantes y rigurosos. Para abordar esta brecha, presentamos OlymMATH, un novedoso benchmark matemático de nivel olímpico, diseñado para evaluar rigurosamente las capacidades de razonamiento complejo de los LLMs. OlymMATH incluye 200 problemas cuidadosamente seleccionados, cada uno verificado manualmente y disponible en versiones paralelas en inglés y chino. Los problemas están organizados sistemáticamente en dos niveles de dificultad distintos: (1) problemas de nivel AIME (fáciles) que establecen una línea base para la evaluación del razonamiento matemático, y (2) problemas significativamente más desafiantes (difíciles) diseñados para superar los límites de los modelos más avanzados actuales. En nuestro benchmark, estos problemas abarcan cuatro campos matemáticos principales, cada uno incluyendo una solución numérica verificable para permitir una evaluación objetiva basada en reglas. Los resultados empíricos subrayan el desafío significativo que presenta OlymMATH, con modelos de última generación como DeepSeek-R1 y el o3-mini de OpenAI mostrando una precisión notablemente limitada en el subconjunto de problemas difíciles. Además, el benchmark facilita una evaluación bilingüe integral de las habilidades de razonamiento matemático, una dimensión crítica que sigue siendo en gran medida desatendida en los benchmarks de razonamiento matemático convencionales. Publicamos el benchmark OlymMATH en el proyecto STILL: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.

English

In recent years, the rapid development of large reasoning models has resulted in the saturation of existing benchmarks for evaluating mathematical reasoning, highlighting the urgent need for more challenging and rigorous evaluation frameworks. To address this gap, we introduce OlymMATH, a novel Olympiad-level mathematical benchmark, designed to rigorously test the complex reasoning capabilities of LLMs. OlymMATH features 200 meticulously curated problems, each manually verified and available in parallel English and Chinese versions. The problems are systematically organized into two distinct difficulty tiers: (1) AIME-level problems (easy) that establish a baseline for mathematical reasoning assessment, and (2) significantly more challenging problems (hard) designed to push the boundaries of current state-of-the-art models. In our benchmark, these problems span four core mathematical fields, each including a verifiable numerical solution to enable objective, rule-based evaluation. Empirical results underscore the significant challenge presented by OlymMATH, with state-of-the-art models including DeepSeek-R1 and OpenAI's o3-mini demonstrating notably limited accuracy on the hard subset. Furthermore, the benchmark facilitates comprehensive bilingual assessment of mathematical reasoning abilities-a critical dimension that remains largely unaddressed in mainstream mathematical reasoning benchmarks. We release the OlymMATH benchmark at the STILL project: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.

Desafiando los límites del razonamiento: Un punto de referencia olímpico en matemáticas para modelos de lenguaje de gran escala

Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models

Resumen

Support