추론의 경계에 도전하다: 대규모 언어 모델을 위한 올림피아드 수준의 수학 벤치마크
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models
March 27, 2025
저자: Haoxiang Sun, Yingqian Min, Zhipeng Chen, Wayne Xin Zhao, Zheng Liu, Zhongyuan Wang, Lei Fang, Ji-Rong Wen
cs.AI
초록
최근 대규모 추론 모델의 급속한 발전으로 인해 수학적 추론 평가를 위한 기존 벤치마크가 포화 상태에 이르렀으며, 이는 더 도전적이고 엄격한 평가 프레임워크의 필요성을 절실히 드러내고 있습니다. 이러한 격차를 해결하기 위해, 우리는 LLM(대형 언어 모델)의 복잡한 추론 능력을 엄격하게 테스트하기 위해 설계된 새로운 올림피아드 수준의 수학 벤치마크인 OlymMATH를 소개합니다. OlymMATH는 각각 수동으로 검증되고 영어와 중국어 버전으로 제공되는 200개의 세심하게 선별된 문제를 특징으로 합니다. 이 문제들은 두 가지 뚜렷한 난이도 계층으로 체계적으로 구성되어 있습니다: (1) 수학적 추론 평가를 위한 기준을 마련하는 AIME 수준의 문제(쉬움), 그리고 (2) 현재 최첨단 모델의 한계를 뛰어넘도록 설계된 상당히 더 도전적인 문제(어려움). 우리의 벤치마크에서 이 문제들은 네 가지 핵심 수학 분야에 걸쳐 있으며, 각 문제에는 객관적이고 규칙 기반의 평가를 가능하게 하는 검증 가능한 수치 해답이 포함되어 있습니다. 실험 결과는 OlymMATH가 제시하는 상당한 도전을 강조하며, DeepSeek-R1과 OpenAI의 o3-mini를 포함한 최첨단 모델들이 어려운 문제 집합에서 특히 제한된 정확도를 보이는 것을 확인할 수 있습니다. 더욱이, 이 벤치마크는 주류 수학적 추론 벤치마크에서 크게 다루어지지 않은 중요한 차원인 수학적 추론 능력의 포괄적인 이중 언어 평가를 가능하게 합니다. 우리는 OlymMATH 벤치마크를 STILL 프로젝트에서 공개합니다: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.
English
In recent years, the rapid development of large reasoning models has resulted
in the saturation of existing benchmarks for evaluating mathematical reasoning,
highlighting the urgent need for more challenging and rigorous evaluation
frameworks. To address this gap, we introduce OlymMATH, a novel Olympiad-level
mathematical benchmark, designed to rigorously test the complex reasoning
capabilities of LLMs. OlymMATH features 200 meticulously curated problems, each
manually verified and available in parallel English and Chinese versions. The
problems are systematically organized into two distinct difficulty tiers: (1)
AIME-level problems (easy) that establish a baseline for mathematical reasoning
assessment, and (2) significantly more challenging problems (hard) designed to
push the boundaries of current state-of-the-art models. In our benchmark, these
problems span four core mathematical fields, each including a verifiable
numerical solution to enable objective, rule-based evaluation. Empirical
results underscore the significant challenge presented by OlymMATH, with
state-of-the-art models including DeepSeek-R1 and OpenAI's o3-mini
demonstrating notably limited accuracy on the hard subset. Furthermore, the
benchmark facilitates comprehensive bilingual assessment of mathematical
reasoning abilities-a critical dimension that remains largely unaddressed in
mainstream mathematical reasoning benchmarks. We release the OlymMATH benchmark
at the STILL project: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.Summary
AI-Generated Summary