Rapporto Tecnico SKYLENAGE: Ragionamento Matematico e Benchmark di Innovazione Contestuale per la Valutazione Multi-Livello della Matematica
SKYLENAGE Technical Report: Mathematical Reasoning and Contest-Innovation Benchmarks for Multi-Level Math Evaluation
September 24, 2025
Autori: Hu Wei, Ze Xu, Boyu Yang, Linlin Miao, Weiqi Zhai, Yihan Li, Zixuan Li, Zhijun Wang, Boya Wang, Jianwei Yu, Jialing Yuan, Xiaoyue Zhang, Cheng He, Minglei Chen, Zifan Zhang, Qianhui Li, Wei Wang, Xiang Xu
cs.AI
Abstract
I grandi modelli linguistici (LLM) ottengono ora risultati solidi su molte suite matematiche pubbliche, tuttavia la separazione all'avanguardia all'interno della matematica soffre sempre più di effetti di saturazione. Presentiamo due benchmark complementari: SKYLENAGE-ReasoningMATH, un set diagnostico di 100 elementi con consapevolezza strutturale, dotato di metadati per ogni elemento su lunghezza, densità numerica e complessità simbolica; e SKYLENAGE-MATH, una suite di 150 elementi in stile concorso che copre quattro livelli dalla scuola superiore al dottorato, organizzata secondo una tassonomia di sette materie. Valutiamo quindici varianti contemporanee di LLM in un'unica configurazione e analizziamo le prestazioni per materia x modello e grado x modello. Nella suite a concorso, il modello più forte raggiunge il 44%, mentre il secondo classificato arriva al 37%; l'accuratezza diminuisce dalla scuola superiore al dottorato, e i sistemi migliori mostrano una ritenzione dal dottorato alla scuola superiore vicina al 79%. Nel set di ragionamento, il modello migliore raggiunge l'81% complessivo, e i risultati delle sezioni più difficili rivelano chiari gap di robustezza tra i leader e la fascia intermedia. In sintesi, rilasciamo SKYLENAGE-ReasoningMATH e riportiamo i risultati aggregati per SKYLENAGE-MATH; insieme, SKYLENAGE fornisce un benchmark matematico difficile, centrato sul ragionamento e ampiamente coprente, con difficoltà calibrata e metadati ricchi, servendo come riferimento per future valutazioni del ragionamento matematico.
English
Large language models (LLMs) now perform strongly on many public math suites,
yet frontier separation within mathematics increasingly suffers from ceiling
effects. We present two complementary benchmarks: SKYLENAGE-ReasoningMATH, a
100-item, structure-aware diagnostic set with per-item metadata on length,
numeric density, and symbolic complexity; and SKYLENAGE-MATH, a 150-item
contest-style suite spanning four stages from high school to doctoral under a
seven-subject taxonomy. We evaluate fifteen contemporary LLM variants under a
single setup and analyze subject x model and grade x model performance. On the
contest suite, the strongest model reaches 44% while the runner-up reaches 37%;
accuracy declines from high school to doctoral, and top systems exhibit a
doctoral-to-high-school retention near 79%. On the reasoning set, the best
model attains 81% overall, and hardest-slice results reveal clear robustness
gaps between leaders and the mid-tier. In summary, we release
SKYLENAGE-ReasoningMATH and report aggregate results for SKYLENAGE-MATH;
together, SKYLENAGE provides a hard, reasoning-centered and broadly covering
math benchmark with calibrated difficulty and rich metadata, serving as a
reference benchmark for future evaluations of mathematical reasoning.