SKYLENAGE Technischer Bericht: Mathematisches Denken und Wettbewerbs-Innovations-Benchmarks für mehrstufige Mathematikbewertung
SKYLENAGE Technical Report: Mathematical Reasoning and Contest-Innovation Benchmarks for Multi-Level Math Evaluation
September 24, 2025
papers.authors: Hu Wei, Ze Xu, Boyu Yang, Linlin Miao, Weiqi Zhai, Yihan Li, Zixuan Li, Zhijun Wang, Boya Wang, Jianwei Yu, Jialing Yuan, Xiaoyue Zhang, Cheng He, Minglei Chen, Zifan Zhang, Qianhui Li, Wei Wang, Xiang Xu
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) zeigen mittlerweile starke Leistungen in vielen öffentlichen Mathematik-Tests, doch die Spitzenunterscheidung innerhalb der Mathematik leidet zunehmend unter Deckeneffekten. Wir präsentieren zwei komplementäre Benchmarks: SKYLENAGE-ReasoningMATH, einen 100-Punkte umfassenden, strukturorientierten Diagnosesatz mit Metadaten zu Länge, numerischer Dichte und symbolischer Komplexität pro Aufgabe; und SKYLENAGE-MATH, einen 150-Punkte umfassenden Wettbewerbsstil-Test, der vier Stufen von der Oberstufe bis zur Promotion unter einer siebenfachen Fachsystematik abdeckt. Wir bewerten fünfzehn aktuelle LLM-Varianten unter einem einheitlichen Setup und analysieren die Leistung nach Fach x Modell und Klassenstufe x Modell. Im Wettbewerbs-Test erreicht das stärkste Modell 44 %, während der Zweitplatzierte 37 % erreicht; die Genauigkeit nimmt von der Oberstufe bis zur Promotion ab, und die besten Systeme zeigen eine Promotions-zu-Oberstufe-Retention von nahezu 79 %. Im Reasoning-Test erreicht das beste Modell insgesamt 81 %, und die Ergebnisse der schwierigsten Aufgaben zeigen deutliche Robustheitslücken zwischen den Spitzenreitern und der Mittelklasse. Zusammenfassend veröffentlichen wir SKYLENAGE-ReasoningMATH und berichten aggregierte Ergebnisse für SKYLENAGE-MATH; zusammen bietet SKYLENAGE einen anspruchsvollen, reasoning-zentrierten und breit gefächerten Mathematik-Benchmark mit kalibrierter Schwierigkeit und umfangreichen Metadaten, der als Referenzbenchmark für zukünftige Bewertungen mathematischen Denkens dient.
English
Large language models (LLMs) now perform strongly on many public math suites,
yet frontier separation within mathematics increasingly suffers from ceiling
effects. We present two complementary benchmarks: SKYLENAGE-ReasoningMATH, a
100-item, structure-aware diagnostic set with per-item metadata on length,
numeric density, and symbolic complexity; and SKYLENAGE-MATH, a 150-item
contest-style suite spanning four stages from high school to doctoral under a
seven-subject taxonomy. We evaluate fifteen contemporary LLM variants under a
single setup and analyze subject x model and grade x model performance. On the
contest suite, the strongest model reaches 44% while the runner-up reaches 37%;
accuracy declines from high school to doctoral, and top systems exhibit a
doctoral-to-high-school retention near 79%. On the reasoning set, the best
model attains 81% overall, and hardest-slice results reveal clear robustness
gaps between leaders and the mid-tier. In summary, we release
SKYLENAGE-ReasoningMATH and report aggregate results for SKYLENAGE-MATH;
together, SKYLENAGE provides a hard, reasoning-centered and broadly covering
math benchmark with calibrated difficulty and rich metadata, serving as a
reference benchmark for future evaluations of mathematical reasoning.