De Grenzen van Redeneren Uitdagen: Een Wiskunde-Olympiadeniveau Benchmark voor Grote Taalmodellen
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models
March 27, 2025
Auteurs: Haoxiang Sun, Yingqian Min, Zhipeng Chen, Wayne Xin Zhao, Zheng Liu, Zhongyuan Wang, Lei Fang, Ji-Rong Wen
cs.AI
Samenvatting
In de afgelopen jaren heeft de snelle ontwikkeling van grote redeneermodellen geleid tot de verzadiging van bestaande benchmarks voor het evalueren van wiskundig redeneren, wat de dringende behoefte aan uitdagendere en strengere evaluatiekaders onderstreept. Om dit gat te dichten, introduceren we OlymMATH, een nieuwe Olympiade-niveau wiskundige benchmark, ontworpen om de complexe redeneervaardigheden van LLM's rigoureus te testen. OlymMATH bevat 200 zorgvuldig samengestelde problemen, elk handmatig geverifieerd en beschikbaar in parallelle Engelse en Chinese versies. De problemen zijn systematisch georganiseerd in twee verschillende moeilijkheidsniveaus: (1) AIME-niveau problemen (makkelijk) die een basislijn vormen voor de beoordeling van wiskundig redeneren, en (2) aanzienlijk uitdagendere problemen (moeilijk) die zijn ontworpen om de grenzen van de huidige state-of-the-art modellen te verleggen. In onze benchmark beslaan deze problemen vier kerngebieden van de wiskunde, elk inclusief een verifieerbare numerieke oplossing om objectieve, op regels gebaseerde evaluatie mogelijk te maken. Empirische resultaten benadrukken de aanzienlijke uitdaging die OlymMATH biedt, waarbij state-of-the-art modellen zoals DeepSeek-R1 en OpenAI's o3-mini opvallend beperkte nauwkeurigheid laten zien op de moeilijke subset. Bovendien vergemakkelijkt de benchmark een uitgebreide tweetalige beoordeling van wiskundige redeneervaardigheden - een cruciaal aspect dat grotendeels onbehandeld blijft in mainstream benchmarks voor wiskundig redeneren. We publiceren de OlymMATH benchmark in het STILL-project: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.
English
In recent years, the rapid development of large reasoning models has resulted
in the saturation of existing benchmarks for evaluating mathematical reasoning,
highlighting the urgent need for more challenging and rigorous evaluation
frameworks. To address this gap, we introduce OlymMATH, a novel Olympiad-level
mathematical benchmark, designed to rigorously test the complex reasoning
capabilities of LLMs. OlymMATH features 200 meticulously curated problems, each
manually verified and available in parallel English and Chinese versions. The
problems are systematically organized into two distinct difficulty tiers: (1)
AIME-level problems (easy) that establish a baseline for mathematical reasoning
assessment, and (2) significantly more challenging problems (hard) designed to
push the boundaries of current state-of-the-art models. In our benchmark, these
problems span four core mathematical fields, each including a verifiable
numerical solution to enable objective, rule-based evaluation. Empirical
results underscore the significant challenge presented by OlymMATH, with
state-of-the-art models including DeepSeek-R1 and OpenAI's o3-mini
demonstrating notably limited accuracy on the hard subset. Furthermore, the
benchmark facilitates comprehensive bilingual assessment of mathematical
reasoning abilities-a critical dimension that remains largely unaddressed in
mainstream mathematical reasoning benchmarks. We release the OlymMATH benchmark
at the STILL project: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.Summary
AI-Generated Summary