De Grenzen van Redeneren Uitdagen: Een Wiskunde-Olympiadeniveau Benchmark voor Grote Taalmodellen

Samenvatting

In de afgelopen jaren heeft de snelle ontwikkeling van grote redeneermodellen geleid tot de verzadiging van bestaande benchmarks voor het evalueren van wiskundig redeneren, wat de dringende behoefte aan uitdagendere en strengere evaluatiekaders onderstreept. Om dit gat te dichten, introduceren we OlymMATH, een nieuwe Olympiade-niveau wiskundige benchmark, ontworpen om de complexe redeneervaardigheden van LLM's rigoureus te testen. OlymMATH bevat 200 zorgvuldig samengestelde problemen, elk handmatig geverifieerd en beschikbaar in parallelle Engelse en Chinese versies. De problemen zijn systematisch georganiseerd in twee verschillende moeilijkheidsniveaus: (1) AIME-niveau problemen (makkelijk) die een basislijn vormen voor de beoordeling van wiskundig redeneren, en (2) aanzienlijk uitdagendere problemen (moeilijk) die zijn ontworpen om de grenzen van de huidige state-of-the-art modellen te verleggen. In onze benchmark beslaan deze problemen vier kerngebieden van de wiskunde, elk inclusief een verifieerbare numerieke oplossing om objectieve, op regels gebaseerde evaluatie mogelijk te maken. Empirische resultaten benadrukken de aanzienlijke uitdaging die OlymMATH biedt, waarbij state-of-the-art modellen zoals DeepSeek-R1 en OpenAI's o3-mini opvallend beperkte nauwkeurigheid laten zien op de moeilijke subset. Bovendien vergemakkelijkt de benchmark een uitgebreide tweetalige beoordeling van wiskundige redeneervaardigheden - een cruciaal aspect dat grotendeels onbehandeld blijft in mainstream benchmarks voor wiskundig redeneren. We publiceren de OlymMATH benchmark in het STILL-project: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.

English

In recent years, the rapid development of large reasoning models has resulted in the saturation of existing benchmarks for evaluating mathematical reasoning, highlighting the urgent need for more challenging and rigorous evaluation frameworks. To address this gap, we introduce OlymMATH, a novel Olympiad-level mathematical benchmark, designed to rigorously test the complex reasoning capabilities of LLMs. OlymMATH features 200 meticulously curated problems, each manually verified and available in parallel English and Chinese versions. The problems are systematically organized into two distinct difficulty tiers: (1) AIME-level problems (easy) that establish a baseline for mathematical reasoning assessment, and (2) significantly more challenging problems (hard) designed to push the boundaries of current state-of-the-art models. In our benchmark, these problems span four core mathematical fields, each including a verifiable numerical solution to enable objective, rule-based evaluation. Empirical results underscore the significant challenge presented by OlymMATH, with state-of-the-art models including DeepSeek-R1 and OpenAI's o3-mini demonstrating notably limited accuracy on the hard subset. Furthermore, the benchmark facilitates comprehensive bilingual assessment of mathematical reasoning abilities-a critical dimension that remains largely unaddressed in mainstream mathematical reasoning benchmarks. We release the OlymMATH benchmark at the STILL project: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.

De Grenzen van Redeneren Uitdagen: Een Wiskunde-Olympiadeniveau Benchmark voor Grote Taalmodellen

Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models

Samenvatting

Support