SKYLENAGE Technisch Rapport: Wiskundig Redeneren en Wedstrijd-Innovatie Benchmarks voor Multi-Level Wiskunde Evaluatie
SKYLENAGE Technical Report: Mathematical Reasoning and Contest-Innovation Benchmarks for Multi-Level Math Evaluation
September 24, 2025
Auteurs: Hu Wei, Ze Xu, Boyu Yang, Linlin Miao, Weiqi Zhai, Yihan Li, Zixuan Li, Zhijun Wang, Boya Wang, Jianwei Yu, Jialing Yuan, Xiaoyue Zhang, Cheng He, Minglei Chen, Zifan Zhang, Qianhui Li, Wei Wang, Xiang Xu
cs.AI
Samenvatting
Grote taalmodellen (LLMs) presteren nu sterk op veel openbare wiskundetests, maar de vooruitgang binnen de wiskunde lijdt steeds meer onder plafondeffecten. Wij presenteren twee complementaire benchmarks: SKYLENAGE-ReasoningMATH, een diagnostische set van 100 items met structuurbewustzijn en metadata per item over lengte, numerieke dichtheid en symbolische complexiteit; en SKYLENAGE-MATH, een wedstrijdachtige set van 150 items die vier niveaus bestrijkt, van middelbare school tot doctoraal, onder een taxonomie van zeven onderwerpen. We evalueren vijftien hedendaagse LLM-varianten onder een enkele opzet en analyseren de prestaties per onderwerp x model en per niveau x model. Op de wedstrijdset bereikt het sterkste model 44%, terwijl de nummer twee 37% haalt; de nauwkeurigheid neemt af van middelbare school tot doctoraal, en de topmodellen vertonen een retentie van doctoraal naar middelbare school van bijna 79%. Op de redeneerset behaalt het beste model 81% in totaal, en de resultaten van de moeilijkste subset onthullen duidelijke robuustheidskloof tussen de leiders en de middenmoot. Samenvattend brengen we SKYLENAGE-ReasoningMATH uit en rapporteren we de geaggregeerde resultaten voor SKYLENAGE-MATH; samen biedt SKYLENAGE een uitdagende, redeneringsgerichte en breed omvattende wiskundebenchmark met gekalibreerde moeilijkheidsgraad en rijke metadata, die dient als referentiebenchmark voor toekomstige evaluaties van wiskundig redeneren.
English
Large language models (LLMs) now perform strongly on many public math suites,
yet frontier separation within mathematics increasingly suffers from ceiling
effects. We present two complementary benchmarks: SKYLENAGE-ReasoningMATH, a
100-item, structure-aware diagnostic set with per-item metadata on length,
numeric density, and symbolic complexity; and SKYLENAGE-MATH, a 150-item
contest-style suite spanning four stages from high school to doctoral under a
seven-subject taxonomy. We evaluate fifteen contemporary LLM variants under a
single setup and analyze subject x model and grade x model performance. On the
contest suite, the strongest model reaches 44% while the runner-up reaches 37%;
accuracy declines from high school to doctoral, and top systems exhibit a
doctoral-to-high-school retention near 79%. On the reasoning set, the best
model attains 81% overall, and hardest-slice results reveal clear robustness
gaps between leaders and the mid-tier. In summary, we release
SKYLENAGE-ReasoningMATH and report aggregate results for SKYLENAGE-MATH;
together, SKYLENAGE provides a hard, reasoning-centered and broadly covering
math benchmark with calibrated difficulty and rich metadata, serving as a
reference benchmark for future evaluations of mathematical reasoning.