Omni-MATH: Ein universeller Mathematik-Benchmark auf Olympiade-Niveau für große Sprachmodelle
Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models
October 10, 2024
Autoren: Bofei Gao, Feifan Song, Zhe Yang, Zefan Cai, Yibo Miao, Qingxiu Dong, Lei Li, Chenghao Ma, Liang Chen, Runxin Xu, Zhengyang Tang, Benyou Wang, Daoguang Zan, Shanghaoran Quan, Ge Zhang, Lei Sha, Yichang Zhang, Xuancheng Ren, Tianyu Liu, Baobao Chang
cs.AI
Zusammenfassung
Die jüngsten Fortschritte bei großen Sprachmodellen (LLMs) haben zu bedeutenden Durchbrüchen in den mathematischen Denkfähigkeiten geführt. Allerdings werden bestehende Benchmarks wie GSM8K oder MATH nun mit hoher Genauigkeit gelöst (z. B. erreicht OpenAI o1 94,8% auf dem MATH-Datensatz), was auf ihre Unzulänglichkeit hinweist, diese Modelle tatsächlich herauszufordern. Um diese Kluft zu überbrücken, schlagen wir einen umfassenden und anspruchsvollen Benchmark vor, der speziell zur Bewertung der mathematischen Denkfähigkeiten von LLMs auf Olympiade-Niveau entwickelt wurde. Im Gegensatz zu bestehenden Olympiade-bezogenen Benchmarks konzentriert sich unser Datensatz ausschließlich auf Mathematik und umfasst eine umfangreiche Sammlung von 4428 Wettbewerbsproblemen mit rigoroser menschlicher Annotation. Diese Probleme sind sorgfältig in über 33 Unterdomänen kategorisiert und erstrecken sich über mehr als 10 verschiedene Schwierigkeitsstufen, was eine ganzheitliche Bewertung der Modellleistung im Bereich der Olympiade-mathematischen Denkfähigkeit ermöglicht. Darüber hinaus haben wir eine eingehende Analyse basierend auf diesem Benchmark durchgeführt. Unsere experimentellen Ergebnisse zeigen, dass selbst die fortschrittlichsten Modelle, OpenAI o1-mini und OpenAI o1-preview, mit hoch anspruchsvollen Olympiade-Problemen zu kämpfen haben, mit Genauigkeiten von 60,54% bzw. 52,55%, was bedeutende Herausforderungen im Bereich der Olympiade-mathematischen Denkfähigkeit aufzeigt.
English
Recent advancements in large language models (LLMs) have led to significant
breakthroughs in mathematical reasoning capabilities. However, existing
benchmarks like GSM8K or MATH are now being solved with high accuracy (e.g.,
OpenAI o1 achieves 94.8% on MATH dataset), indicating their inadequacy for
truly challenging these models. To bridge this gap, we propose a comprehensive
and challenging benchmark specifically designed to assess LLMs' mathematical
reasoning at the Olympiad level. Unlike existing Olympiad-related benchmarks,
our dataset focuses exclusively on mathematics and comprises a vast collection
of 4428 competition-level problems with rigorous human annotation. These
problems are meticulously categorized into over 33 sub-domains and span more
than 10 distinct difficulty levels, enabling a holistic assessment of model
performance in Olympiad-mathematical reasoning. Furthermore, we conducted an
in-depth analysis based on this benchmark. Our experimental results show that
even the most advanced models, OpenAI o1-mini and OpenAI o1-preview, struggle
with highly challenging Olympiad-level problems, with 60.54% and 52.55%
accuracy, highlighting significant challenges in Olympiad-level mathematical
reasoning.Summary
AI-Generated Summary