ChatPaper.aiChatPaper

Испытание границ рассуждений: олимпиадный математический бенчмарк для крупных языковых моделей

Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models

March 27, 2025
Авторы: Haoxiang Sun, Yingqian Min, Zhipeng Chen, Wayne Xin Zhao, Zheng Liu, Zhongyuan Wang, Lei Fang, Ji-Rong Wen
cs.AI

Аннотация

В последние годы стремительное развитие крупных моделей логического вывода привело к насыщению существующих тестовых наборов для оценки математического мышления, что подчеркивает острую необходимость в более сложных и строгих рамках оценки. Для устранения этого пробела мы представляем OlymMATH — новый олимпиадный математический тестовый набор, разработанный для тщательной проверки сложных способностей к логическому выводу у крупных языковых моделей (LLM). OlymMATH включает 200 тщательно отобранных задач, каждая из которых вручную проверена и доступна в параллельных версиях на английском и китайском языках. Задачи систематически организованы в два уровня сложности: (1) задачи уровня AIME (легкие), которые устанавливают базовый уровень для оценки математического мышления, и (2) значительно более сложные задачи (тяжелые), призванные выйти за пределы возможностей современных передовых моделей. В нашем тестовом наборе эти задачи охватывают четыре ключевые области математики, каждая из которых включает проверяемое численное решение для обеспечения объективной, основанной на правилах оценки. Эмпирические результаты подчеркивают значительную сложность OlymMATH, при этом передовые модели, включая DeepSeek-R1 и OpenAI o3-mini, демонстрируют заметно ограниченную точность на сложном подмножестве задач. Кроме того, тестовый набор позволяет проводить всестороннюю двуязычную оценку способностей к математическому мышлению — критический аспект, который остается в значительной степени неохваченным в основных тестовых наборах для оценки математического мышления. Мы публикуем тестовый набор OlymMATH в рамках проекта STILL: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.
English
In recent years, the rapid development of large reasoning models has resulted in the saturation of existing benchmarks for evaluating mathematical reasoning, highlighting the urgent need for more challenging and rigorous evaluation frameworks. To address this gap, we introduce OlymMATH, a novel Olympiad-level mathematical benchmark, designed to rigorously test the complex reasoning capabilities of LLMs. OlymMATH features 200 meticulously curated problems, each manually verified and available in parallel English and Chinese versions. The problems are systematically organized into two distinct difficulty tiers: (1) AIME-level problems (easy) that establish a baseline for mathematical reasoning assessment, and (2) significantly more challenging problems (hard) designed to push the boundaries of current state-of-the-art models. In our benchmark, these problems span four core mathematical fields, each including a verifiable numerical solution to enable objective, rule-based evaluation. Empirical results underscore the significant challenge presented by OlymMATH, with state-of-the-art models including DeepSeek-R1 and OpenAI's o3-mini demonstrating notably limited accuracy on the hard subset. Furthermore, the benchmark facilitates comprehensive bilingual assessment of mathematical reasoning abilities-a critical dimension that remains largely unaddressed in mainstream mathematical reasoning benchmarks. We release the OlymMATH benchmark at the STILL project: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.

Summary

AI-Generated Summary

PDF374March 28, 2025