ChatPaper.aiChatPaper

Informe Técnico de SKYLENAGE: Razonamiento Matemático y Puntos de Referencia para la Innovación en Concursos para la Evaluación Multinivel de Matemáticas

SKYLENAGE Technical Report: Mathematical Reasoning and Contest-Innovation Benchmarks for Multi-Level Math Evaluation

September 24, 2025
Autores: Hu Wei, Ze Xu, Boyu Yang, Linlin Miao, Weiqi Zhai, Yihan Li, Zixuan Li, Zhijun Wang, Boya Wang, Jianwei Yu, Jialing Yuan, Xiaoyue Zhang, Cheng He, Minglei Chen, Zifan Zhang, Qianhui Li, Wei Wang, Xiang Xu
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs) ahora tienen un rendimiento sólido en muchas pruebas públicas de matemáticas, aunque la separación en la frontera dentro de las matemáticas sufre cada vez más efectos de techo. Presentamos dos puntos de referencia complementarios: SKYLENAGE-ReasoningMATH, un conjunto diagnóstico de 100 ítems con conciencia estructural y metadatos por ítem sobre longitud, densidad numérica y complejidad simbólica; y SKYLENAGE-MATH, una suite de 150 ítems de estilo concurso que abarca cuatro etapas desde la escuela secundaria hasta el doctorado bajo una taxonomía de siete materias. Evaluamos quince variantes contemporáneas de LLM bajo una configuración única y analizamos el rendimiento por materia x modelo y grado x modelo. En la suite de concurso, el modelo más fuerte alcanza un 44%, mientras que el segundo lugar llega al 37%; la precisión disminuye desde la escuela secundaria hasta el doctorado, y los sistemas líderes muestran una retención de doctorado a secundaria cercana al 79%. En el conjunto de razonamiento, el mejor modelo alcanza un 81% en general, y los resultados de la porción más difícil revelan brechas claras de robustez entre los líderes y el nivel medio. En resumen, publicamos SKYLENAGE-ReasoningMATH y reportamos resultados agregados para SKYLENAGE-MATH; juntos, SKYLENAGE proporciona un punto de referencia matemático difícil, centrado en el razonamiento y de amplia cobertura, con dificultad calibrada y metadatos ricos, sirviendo como un estándar de referencia para futuras evaluaciones del razonamiento matemático.
English
Large language models (LLMs) now perform strongly on many public math suites, yet frontier separation within mathematics increasingly suffers from ceiling effects. We present two complementary benchmarks: SKYLENAGE-ReasoningMATH, a 100-item, structure-aware diagnostic set with per-item metadata on length, numeric density, and symbolic complexity; and SKYLENAGE-MATH, a 150-item contest-style suite spanning four stages from high school to doctoral under a seven-subject taxonomy. We evaluate fifteen contemporary LLM variants under a single setup and analyze subject x model and grade x model performance. On the contest suite, the strongest model reaches 44% while the runner-up reaches 37%; accuracy declines from high school to doctoral, and top systems exhibit a doctoral-to-high-school retention near 79%. On the reasoning set, the best model attains 81% overall, and hardest-slice results reveal clear robustness gaps between leaders and the mid-tier. In summary, we release SKYLENAGE-ReasoningMATH and report aggregate results for SKYLENAGE-MATH; together, SKYLENAGE provides a hard, reasoning-centered and broadly covering math benchmark with calibrated difficulty and rich metadata, serving as a reference benchmark for future evaluations of mathematical reasoning.
PDF32October 3, 2025