ChatPaper.aiChatPaper

추론의 경계에 도전하다: 대규모 언어 모델을 위한 올림피아드 수준의 수학 벤치마크

Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models

March 27, 2025
저자: Haoxiang Sun, Yingqian Min, Zhipeng Chen, Wayne Xin Zhao, Zheng Liu, Zhongyuan Wang, Lei Fang, Ji-Rong Wen
cs.AI

초록

최근 대규모 추론 모델의 급속한 발전으로 인해 수학적 추론 평가를 위한 기존 벤치마크가 포화 상태에 이르렀으며, 이는 더 도전적이고 엄격한 평가 프레임워크의 필요성을 절실히 드러내고 있습니다. 이러한 격차를 해결하기 위해, 우리는 LLM(대형 언어 모델)의 복잡한 추론 능력을 엄격하게 테스트하기 위해 설계된 새로운 올림피아드 수준의 수학 벤치마크인 OlymMATH를 소개합니다. OlymMATH는 각각 수동으로 검증되고 영어와 중국어 버전으로 제공되는 200개의 세심하게 선별된 문제를 특징으로 합니다. 이 문제들은 두 가지 뚜렷한 난이도 계층으로 체계적으로 구성되어 있습니다: (1) 수학적 추론 평가를 위한 기준을 마련하는 AIME 수준의 문제(쉬움), 그리고 (2) 현재 최첨단 모델의 한계를 뛰어넘도록 설계된 상당히 더 도전적인 문제(어려움). 우리의 벤치마크에서 이 문제들은 네 가지 핵심 수학 분야에 걸쳐 있으며, 각 문제에는 객관적이고 규칙 기반의 평가를 가능하게 하는 검증 가능한 수치 해답이 포함되어 있습니다. 실험 결과는 OlymMATH가 제시하는 상당한 도전을 강조하며, DeepSeek-R1과 OpenAI의 o3-mini를 포함한 최첨단 모델들이 어려운 문제 집합에서 특히 제한된 정확도를 보이는 것을 확인할 수 있습니다. 더욱이, 이 벤치마크는 주류 수학적 추론 벤치마크에서 크게 다루어지지 않은 중요한 차원인 수학적 추론 능력의 포괄적인 이중 언어 평가를 가능하게 합니다. 우리는 OlymMATH 벤치마크를 STILL 프로젝트에서 공개합니다: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.
English
In recent years, the rapid development of large reasoning models has resulted in the saturation of existing benchmarks for evaluating mathematical reasoning, highlighting the urgent need for more challenging and rigorous evaluation frameworks. To address this gap, we introduce OlymMATH, a novel Olympiad-level mathematical benchmark, designed to rigorously test the complex reasoning capabilities of LLMs. OlymMATH features 200 meticulously curated problems, each manually verified and available in parallel English and Chinese versions. The problems are systematically organized into two distinct difficulty tiers: (1) AIME-level problems (easy) that establish a baseline for mathematical reasoning assessment, and (2) significantly more challenging problems (hard) designed to push the boundaries of current state-of-the-art models. In our benchmark, these problems span four core mathematical fields, each including a verifiable numerical solution to enable objective, rule-based evaluation. Empirical results underscore the significant challenge presented by OlymMATH, with state-of-the-art models including DeepSeek-R1 and OpenAI's o3-mini demonstrating notably limited accuracy on the hard subset. Furthermore, the benchmark facilitates comprehensive bilingual assessment of mathematical reasoning abilities-a critical dimension that remains largely unaddressed in mainstream mathematical reasoning benchmarks. We release the OlymMATH benchmark at the STILL project: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.

Summary

AI-Generated Summary

PDF374March 28, 2025