Relatório Técnico SKYLENAGE: Raciocínio Matemático e Benchmarks de Inovação em Competições para Avaliação de Matemática Multinível
SKYLENAGE Technical Report: Mathematical Reasoning and Contest-Innovation Benchmarks for Multi-Level Math Evaluation
September 24, 2025
Autores: Hu Wei, Ze Xu, Boyu Yang, Linlin Miao, Weiqi Zhai, Yihan Li, Zixuan Li, Zhijun Wang, Boya Wang, Jianwei Yu, Jialing Yuan, Xiaoyue Zhang, Cheng He, Minglei Chen, Zifan Zhang, Qianhui Li, Wei Wang, Xiang Xu
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) agora apresentam desempenho forte em muitos conjuntos públicos de matemática, mas a separação de fronteira dentro da matemática sofre cada vez mais com efeitos de teto. Apresentamos dois benchmarks complementares: SKYLENAGE-ReasoningMATH, um conjunto diagnóstico de 100 itens com metadados por item sobre comprimento, densidade numérica e complexidade simbólica; e SKYLENAGE-MATH, um conjunto de 150 itens no estilo de competição, abrangendo quatro níveis do ensino médio ao doutorado sob uma taxonomia de sete disciplinas. Avaliamos quinze variantes contemporâneas de LLMs em uma única configuração e analisamos o desempenho por disciplina x modelo e por série x modelo. No conjunto de competição, o modelo mais forte alcança 44%, enquanto o segundo colocado chega a 37%; a precisão diminui do ensino médio ao doutorado, e os sistemas de topo exibem uma retenção de doutorado para ensino médio próxima de 79%. No conjunto de raciocínio, o melhor modelo atinge 81% no geral, e os resultados das fatias mais difíceis revelam lacunas claras de robustez entre os líderes e a faixa intermediária. Em resumo, lançamos o SKYLENAGE-ReasoningMATH e relatamos resultados agregados para o SKYLENAGE-MATH; juntos, o SKYLENAGE fornece um benchmark de matemática difícil, centrado no raciocínio e de ampla cobertura, com dificuldade calibrada e metadados ricos, servindo como um benchmark de referência para futuras avaliações de raciocínio matemático.
English
Large language models (LLMs) now perform strongly on many public math suites,
yet frontier separation within mathematics increasingly suffers from ceiling
effects. We present two complementary benchmarks: SKYLENAGE-ReasoningMATH, a
100-item, structure-aware diagnostic set with per-item metadata on length,
numeric density, and symbolic complexity; and SKYLENAGE-MATH, a 150-item
contest-style suite spanning four stages from high school to doctoral under a
seven-subject taxonomy. We evaluate fifteen contemporary LLM variants under a
single setup and analyze subject x model and grade x model performance. On the
contest suite, the strongest model reaches 44% while the runner-up reaches 37%;
accuracy declines from high school to doctoral, and top systems exhibit a
doctoral-to-high-school retention near 79%. On the reasoning set, the best
model attains 81% overall, and hardest-slice results reveal clear robustness
gaps between leaders and the mid-tier. In summary, we release
SKYLENAGE-ReasoningMATH and report aggregate results for SKYLENAGE-MATH;
together, SKYLENAGE provides a hard, reasoning-centered and broadly covering
math benchmark with calibrated difficulty and rich metadata, serving as a
reference benchmark for future evaluations of mathematical reasoning.