Технический отчет SKYLENAGE: Математические рассуждения и эталонные тесты для инновационных соревнований в многоуровневой оценке математических знаний
SKYLENAGE Technical Report: Mathematical Reasoning and Contest-Innovation Benchmarks for Multi-Level Math Evaluation
September 24, 2025
Авторы: Hu Wei, Ze Xu, Boyu Yang, Linlin Miao, Weiqi Zhai, Yihan Li, Zixuan Li, Zhijun Wang, Boya Wang, Jianwei Yu, Jialing Yuan, Xiaoyue Zhang, Cheng He, Minglei Chen, Zifan Zhang, Qianhui Li, Wei Wang, Xiang Xu
cs.AI
Аннотация
Крупные языковые модели (LLM) демонстрируют высокие результаты на многих публичных наборах математических задач, однако прогресс в математике всё чаще сталкивается с эффектом потолка. Мы представляем два взаимодополняющих бенчмарка: SKYLENAGE-ReasoningMATH — диагностический набор из 100 задач с метаданными для каждого задания, включающими длину, плотность числовых данных и сложность символов; и SKYLENAGE-MATH — набор из 150 задач в стиле соревнований, охватывающий четыре уровня сложности от старшей школы до докторантуры в рамках семи предметных категорий. Мы оцениваем пятнадцать современных вариантов LLM в единой настройке и анализируем производительность по предметам и уровням сложности. На соревновательном наборе лучшая модель достигает 44%, а следующая за ней — 37%; точность снижается от старшей школы к докторантуре, а лучшие системы демонстрируют сохранение точности на уровне около 79% от докторантуры к старшей школе. На диагностическом наборе лучшая модель достигает 81% в целом, а результаты для наиболее сложных задач выявляют явные разрывы в устойчивости между лидерами и моделями среднего уровня. В итоге мы публикуем SKYLENAGE-ReasoningMATH и сообщаем агрегированные результаты для SKYLENAGE-MATH; вместе SKYLENAGE представляет собой сложный, ориентированный на логическое мышление и широко охватывающий математический бенчмарк с калиброванной сложностью и богатыми метаданными, служащий эталоном для будущих оценок математического мышления.
English
Large language models (LLMs) now perform strongly on many public math suites,
yet frontier separation within mathematics increasingly suffers from ceiling
effects. We present two complementary benchmarks: SKYLENAGE-ReasoningMATH, a
100-item, structure-aware diagnostic set with per-item metadata on length,
numeric density, and symbolic complexity; and SKYLENAGE-MATH, a 150-item
contest-style suite spanning four stages from high school to doctoral under a
seven-subject taxonomy. We evaluate fifteen contemporary LLM variants under a
single setup and analyze subject x model and grade x model performance. On the
contest suite, the strongest model reaches 44% while the runner-up reaches 37%;
accuracy declines from high school to doctoral, and top systems exhibit a
doctoral-to-high-school retention near 79%. On the reasoning set, the best
model attains 81% overall, and hardest-slice results reveal clear robustness
gaps between leaders and the mid-tier. In summary, we release
SKYLENAGE-ReasoningMATH and report aggregate results for SKYLENAGE-MATH;
together, SKYLENAGE provides a hard, reasoning-centered and broadly covering
math benchmark with calibrated difficulty and rich metadata, serving as a
reference benchmark for future evaluations of mathematical reasoning.