Desafiando os Limites do Raciocínio: Um Benchmark de Matemática em Nível Olímpico para Modelos de Linguagem de Grande Escala
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models
March 27, 2025
Autores: Haoxiang Sun, Yingqian Min, Zhipeng Chen, Wayne Xin Zhao, Zheng Liu, Zhongyuan Wang, Lei Fang, Ji-Rong Wen
cs.AI
Resumo
Nos últimos anos, o rápido desenvolvimento de modelos de raciocínio em larga escala resultou na saturação dos benchmarks existentes para avaliação de raciocínio matemático, destacando a necessidade urgente de frameworks de avaliação mais desafiadores e rigorosos. Para abordar essa lacuna, apresentamos o OlymMATH, um novo benchmark matemático de nível olímpico, projetado para testar rigorosamente as capacidades de raciocínio complexo de LLMs. O OlymMATH apresenta 200 problemas meticulosamente curados, cada um verificado manualmente e disponível em versões paralelas em inglês e chinês. Os problemas são organizados sistematicamente em dois níveis distintos de dificuldade: (1) problemas de nível AIME (fáceis) que estabelecem uma linha de base para a avaliação de raciocínio matemático, e (2) problemas significativamente mais desafiadores (difíceis) projetados para expandir os limites dos modelos state-of-the-art atuais. Em nosso benchmark, esses problemas abrangem quatro áreas principais da matemática, cada uma incluindo uma solução numérica verificável para permitir uma avaliação objetiva e baseada em regras. Resultados empíricos destacam o desafio significativo apresentado pelo OlymMATH, com modelos state-of-the-art, incluindo o DeepSeek-R1 e o o3-mini da OpenAI, demonstrando precisão notavelmente limitada no subconjunto de problemas difíceis. Além disso, o benchmark facilita uma avaliação bilíngue abrangente das habilidades de raciocínio matemático—uma dimensão crítica que permanece amplamente não abordada nos benchmarks mainstream de raciocínio matemático. Lançamos o benchmark OlymMATH no projeto STILL: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.
English
In recent years, the rapid development of large reasoning models has resulted
in the saturation of existing benchmarks for evaluating mathematical reasoning,
highlighting the urgent need for more challenging and rigorous evaluation
frameworks. To address this gap, we introduce OlymMATH, a novel Olympiad-level
mathematical benchmark, designed to rigorously test the complex reasoning
capabilities of LLMs. OlymMATH features 200 meticulously curated problems, each
manually verified and available in parallel English and Chinese versions. The
problems are systematically organized into two distinct difficulty tiers: (1)
AIME-level problems (easy) that establish a baseline for mathematical reasoning
assessment, and (2) significantly more challenging problems (hard) designed to
push the boundaries of current state-of-the-art models. In our benchmark, these
problems span four core mathematical fields, each including a verifiable
numerical solution to enable objective, rule-based evaluation. Empirical
results underscore the significant challenge presented by OlymMATH, with
state-of-the-art models including DeepSeek-R1 and OpenAI's o3-mini
demonstrating notably limited accuracy on the hard subset. Furthermore, the
benchmark facilitates comprehensive bilingual assessment of mathematical
reasoning abilities-a critical dimension that remains largely unaddressed in
mainstream mathematical reasoning benchmarks. We release the OlymMATH benchmark
at the STILL project: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.Summary
AI-Generated Summary