Rapport technique SKYLENAGE : Raisonnement mathématique et Benchmarks d'innovation-concours pour l'évaluation multi-niveaux en mathématiques
SKYLENAGE Technical Report: Mathematical Reasoning and Contest-Innovation Benchmarks for Multi-Level Math Evaluation
September 24, 2025
papers.authors: Hu Wei, Ze Xu, Boyu Yang, Linlin Miao, Weiqi Zhai, Yihan Li, Zixuan Li, Zhijun Wang, Boya Wang, Jianwei Yu, Jialing Yuan, Xiaoyue Zhang, Cheng He, Minglei Chen, Zifan Zhang, Qianhui Li, Wei Wang, Xiang Xu
cs.AI
papers.abstract
Les grands modèles de langage (LLM) obtiennent désormais de solides performances sur de nombreuses suites mathématiques publiques, mais la séparation des frontières en mathématiques souffre de plus en plus d'effets de plafond. Nous présentons deux benchmarks complémentaires : SKYLENAGE-ReasoningMATH, un ensemble diagnostique de 100 items prenant en compte la structure, avec des métadonnées par item sur la longueur, la densité numérique et la complexité symbolique ; et SKYLENAGE-MATH, une suite de 150 items de style concours couvrant quatre niveaux, du lycée au doctorat, selon une taxonomie de sept sujets. Nous évaluons quinze variantes contemporaines de LLM dans une configuration unique et analysons les performances par sujet x modèle et par niveau x modèle. Sur la suite de concours, le modèle le plus performant atteint 44 % tandis que le second atteint 37 % ; la précision diminue du lycée au doctorat, et les meilleurs systèmes montrent une rétention doctorat-lycée proche de 79 %. Sur l'ensemble de raisonnement, le meilleur modèle atteint 81 % globalement, et les résultats des tranches les plus difficiles révèlent des écarts de robustesse clairs entre les leaders et le milieu de tableau. En résumé, nous publions SKYLENAGE-ReasoningMATH et rapportons les résultats agrégés pour SKYLENAGE-MATH ; ensemble, SKYLENAGE fournit un benchmark mathématique difficile, centré sur le raisonnement et largement couvrant, avec une difficulté calibrée et des métadonnées riches, servant de référence pour les futures évaluations du raisonnement mathématique.
English
Large language models (LLMs) now perform strongly on many public math suites,
yet frontier separation within mathematics increasingly suffers from ceiling
effects. We present two complementary benchmarks: SKYLENAGE-ReasoningMATH, a
100-item, structure-aware diagnostic set with per-item metadata on length,
numeric density, and symbolic complexity; and SKYLENAGE-MATH, a 150-item
contest-style suite spanning four stages from high school to doctoral under a
seven-subject taxonomy. We evaluate fifteen contemporary LLM variants under a
single setup and analyze subject x model and grade x model performance. On the
contest suite, the strongest model reaches 44% while the runner-up reaches 37%;
accuracy declines from high school to doctoral, and top systems exhibit a
doctoral-to-high-school retention near 79%. On the reasoning set, the best
model attains 81% overall, and hardest-slice results reveal clear robustness
gaps between leaders and the mid-tier. In summary, we release
SKYLENAGE-ReasoningMATH and report aggregate results for SKYLENAGE-MATH;
together, SKYLENAGE provides a hard, reasoning-centered and broadly covering
math benchmark with calibrated difficulty and rich metadata, serving as a
reference benchmark for future evaluations of mathematical reasoning.