SKYLENAGE 기술 보고서: 다단계 수학 평가를 위한 수학적 추론 및 대회-혁신 벤치마크
SKYLENAGE Technical Report: Mathematical Reasoning and Contest-Innovation Benchmarks for Multi-Level Math Evaluation
September 24, 2025
저자: Hu Wei, Ze Xu, Boyu Yang, Linlin Miao, Weiqi Zhai, Yihan Li, Zixuan Li, Zhijun Wang, Boya Wang, Jianwei Yu, Jialing Yuan, Xiaoyue Zhang, Cheng He, Minglei Chen, Zifan Zhang, Qianhui Li, Wei Wang, Xiang Xu
cs.AI
초록
대형 언어 모델(LLM)은 현재 많은 공개 수학 평가 세트에서 강력한 성능을 보이고 있지만, 수학 분야 내 최첨단 모델 간의 격차는 점점 더 천장 효과를 겪고 있습니다. 우리는 두 가지 상호 보완적인 벤치마크를 제시합니다: SKYLENAGE-ReasoningMATH는 100개 항목으로 구성된 구조 인식 진단 세트로, 각 항목의 길이, 숫자 밀도, 기호 복잡성에 대한 메타데이터를 포함하며; SKYLENAGE-MATH는 고등학교부터 박사 과정까지 네 단계에 걸친 150개 항목의 경쟁 스타일 세트로, 일곱 가지 주제 분류 체계를 따릅니다. 우리는 단일 설정 하에서 15개의 최신 LLM 변종을 평가하고, 주제별 x 모델 및 학년별 x 모델 성능을 분석합니다. 경쟁 세트에서 가장 강력한 모델은 44%의 정확도를 달성하며, 2위 모델은 37%를 기록합니다. 정확도는 고등학교에서 박사 과정으로 갈수록 감소하며, 최상위 시스템은 박사 과정에서 고등학교 수준까지 약 79%의 유지율을 보입니다. 추론 세트에서 최고 모델은 전체적으로 81%의 정확도를 달성하며, 가장 어려운 부분의 결과는 선두 그룹과 중간 그룹 간의 명확한 견고성 차이를 보여줍니다. 요약하자면, 우리는 SKYLENAGE-ReasoningMATH를 공개하고 SKYLENAGE-MATH의 집계 결과를 보고합니다. SKYLENAGE는 함께, 보정된 난이도와 풍부한 메타데이터를 갖춘 어렵고 추론 중심의 포괄적인 수학 벤치마크를 제공하며, 향후 수학적 추론 평가를 위한 참조 벤치마크로 기능할 것입니다.
English
Large language models (LLMs) now perform strongly on many public math suites,
yet frontier separation within mathematics increasingly suffers from ceiling
effects. We present two complementary benchmarks: SKYLENAGE-ReasoningMATH, a
100-item, structure-aware diagnostic set with per-item metadata on length,
numeric density, and symbolic complexity; and SKYLENAGE-MATH, a 150-item
contest-style suite spanning four stages from high school to doctoral under a
seven-subject taxonomy. We evaluate fifteen contemporary LLM variants under a
single setup and analyze subject x model and grade x model performance. On the
contest suite, the strongest model reaches 44% while the runner-up reaches 37%;
accuracy declines from high school to doctoral, and top systems exhibit a
doctoral-to-high-school retention near 79%. On the reasoning set, the best
model attains 81% overall, and hardest-slice results reveal clear robustness
gaps between leaders and the mid-tier. In summary, we release
SKYLENAGE-ReasoningMATH and report aggregate results for SKYLENAGE-MATH;
together, SKYLENAGE provides a hard, reasoning-centered and broadly covering
math benchmark with calibrated difficulty and rich metadata, serving as a
reference benchmark for future evaluations of mathematical reasoning.