ChatPaper.aiChatPaper

Omni-MATH: Een Universele Wiskundige Benchmark op Olympiadeniveau voor Grote Taalmodellen

Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models

October 10, 2024
Auteurs: Bofei Gao, Feifan Song, Zhe Yang, Zefan Cai, Yibo Miao, Qingxiu Dong, Lei Li, Chenghao Ma, Liang Chen, Runxin Xu, Zhengyang Tang, Benyou Wang, Daoguang Zan, Shanghaoran Quan, Ge Zhang, Lei Sha, Yichang Zhang, Xuancheng Ren, Tianyu Liu, Baobao Chang
cs.AI

Samenvatting

Recente ontwikkelingen in grote taalmodellen (LLM's) hebben geleid tot aanzienlijke doorbraken in wiskundige redeneervaardigheden. Bestaande benchmarks zoals GSM8K of MATH worden echter nu met een hoge nauwkeurigheid opgelost (bijv. OpenAI o1 behaalt 94,8% op het MATH-dataset), wat wijst op hun ontoereikendheid om deze modellen echt uit te dagen. Om deze kloof te overbruggen, stellen we een uitgebreide en uitdagende benchmark voor die specifiek is ontworpen om de wiskundige redeneervaardigheden van LLM's op Olympiade-niveau te beoordelen. In tegenstelling tot bestaande benchmarks gerelateerd aan Olympiades, richt onze dataset zich uitsluitend op wiskunde en omvat een uitgebreide verzameling van 4428 problemen op competitieniveau met rigoureuze menselijke annotatie. Deze problemen zijn zorgvuldig gecategoriseerd in meer dan 33 subdomeinen en beslaan meer dan 10 verschillende moeilijkheidsniveaus, waardoor een holistische beoordeling van de modelprestaties in Olympische wiskundige redenering mogelijk is. Bovendien hebben we een diepgaande analyse uitgevoerd op basis van deze benchmark. Onze experimentele resultaten tonen aan dat zelfs de meest geavanceerde modellen, OpenAI o1-mini en OpenAI o1-preview, moeite hebben met zeer uitdagende Olympiade-niveau problemen, met respectievelijk 60,54% en 52,55% nauwkeurigheid, waarbij significante uitdagingen in Olympiade-niveau wiskundige redenering worden benadrukt.
English
Recent advancements in large language models (LLMs) have led to significant breakthroughs in mathematical reasoning capabilities. However, existing benchmarks like GSM8K or MATH are now being solved with high accuracy (e.g., OpenAI o1 achieves 94.8% on MATH dataset), indicating their inadequacy for truly challenging these models. To bridge this gap, we propose a comprehensive and challenging benchmark specifically designed to assess LLMs' mathematical reasoning at the Olympiad level. Unlike existing Olympiad-related benchmarks, our dataset focuses exclusively on mathematics and comprises a vast collection of 4428 competition-level problems with rigorous human annotation. These problems are meticulously categorized into over 33 sub-domains and span more than 10 distinct difficulty levels, enabling a holistic assessment of model performance in Olympiad-mathematical reasoning. Furthermore, we conducted an in-depth analysis based on this benchmark. Our experimental results show that even the most advanced models, OpenAI o1-mini and OpenAI o1-preview, struggle with highly challenging Olympiad-level problems, with 60.54% and 52.55% accuracy, highlighting significant challenges in Olympiad-level mathematical reasoning.

Summary

AI-Generated Summary

PDF333November 16, 2024