Omni-MATH: Ein universeller Mathematik-Benchmark auf Olympiade-Niveau für große Sprachmodelle

papers.abstract

Die jüngsten Fortschritte bei großen Sprachmodellen (LLMs) haben zu bedeutenden Durchbrüchen in den mathematischen Denkfähigkeiten geführt. Allerdings werden bestehende Benchmarks wie GSM8K oder MATH nun mit hoher Genauigkeit gelöst (z. B. erreicht OpenAI o1 94,8% auf dem MATH-Datensatz), was auf ihre Unzulänglichkeit hinweist, diese Modelle tatsächlich herauszufordern. Um diese Kluft zu überbrücken, schlagen wir einen umfassenden und anspruchsvollen Benchmark vor, der speziell zur Bewertung der mathematischen Denkfähigkeiten von LLMs auf Olympiade-Niveau entwickelt wurde. Im Gegensatz zu bestehenden Olympiade-bezogenen Benchmarks konzentriert sich unser Datensatz ausschließlich auf Mathematik und umfasst eine umfangreiche Sammlung von 4428 Wettbewerbsproblemen mit rigoroser menschlicher Annotation. Diese Probleme sind sorgfältig in über 33 Unterdomänen kategorisiert und erstrecken sich über mehr als 10 verschiedene Schwierigkeitsstufen, was eine ganzheitliche Bewertung der Modellleistung im Bereich der Olympiade-mathematischen Denkfähigkeit ermöglicht. Darüber hinaus haben wir eine eingehende Analyse basierend auf diesem Benchmark durchgeführt. Unsere experimentellen Ergebnisse zeigen, dass selbst die fortschrittlichsten Modelle, OpenAI o1-mini und OpenAI o1-preview, mit hoch anspruchsvollen Olympiade-Problemen zu kämpfen haben, mit Genauigkeiten von 60,54% bzw. 52,55%, was bedeutende Herausforderungen im Bereich der Olympiade-mathematischen Denkfähigkeit aufzeigt.

English

Recent advancements in large language models (LLMs) have led to significant breakthroughs in mathematical reasoning capabilities. However, existing benchmarks like GSM8K or MATH are now being solved with high accuracy (e.g., OpenAI o1 achieves 94.8% on MATH dataset), indicating their inadequacy for truly challenging these models. To bridge this gap, we propose a comprehensive and challenging benchmark specifically designed to assess LLMs' mathematical reasoning at the Olympiad level. Unlike existing Olympiad-related benchmarks, our dataset focuses exclusively on mathematics and comprises a vast collection of 4428 competition-level problems with rigorous human annotation. These problems are meticulously categorized into over 33 sub-domains and span more than 10 distinct difficulty levels, enabling a holistic assessment of model performance in Olympiad-mathematical reasoning. Furthermore, we conducted an in-depth analysis based on this benchmark. Our experimental results show that even the most advanced models, OpenAI o1-mini and OpenAI o1-preview, struggle with highly challenging Olympiad-level problems, with 60.54% and 52.55% accuracy, highlighting significant challenges in Olympiad-level mathematical reasoning.

Omni-MATH: Ein universeller Mathematik-Benchmark auf Olympiade-Niveau für große Sprachmodelle

Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models

papers.abstract

Support