La Evaluación es Todo lo que Necesitas: Sobreafirmación Estratégica de las Capacidades de Razonamiento de los LLM Mediante el Diseño de Evaluación
Evaluation is All You Need: Strategic Overclaiming of LLM Reasoning Capabilities Through Evaluation Design
June 5, 2025
Autores: Lin Sun, Weihong Lin, Jinzhu Wu, Yongfu Zhu, Xiaoqi Jian, Guangxiang Zhao, Change Jia, Linglin Zhang, Sai-er Hu, Yuhan Wu, Xiangzheng Zhang
cs.AI
Resumen
Los modelos de razonamiento representados por la serie Deepseek-R1-Distill han sido ampliamente adoptados por la comunidad de código abierto debido a su destacado rendimiento en matemáticas, ciencias, programación y otros dominios. Sin embargo, nuestro estudio revela que los resultados de su evaluación comparativa están sujetos a fluctuaciones significativas causadas por diversos factores. Diferencias sutiles en las condiciones de evaluación pueden generar variaciones sustanciales en los resultados. Fenómenos similares se observan en otros modelos de inferencia de código abierto ajustados a partir de la serie Deepseek-R1-Distill, así como en el modelo QwQ-32B, lo que dificulta la reproducción confiable de las mejoras de rendimiento que afirman. Por lo tanto, abogamos por el establecimiento de un paradigma más riguroso para la evaluación del rendimiento de los modelos y presentamos nuestras evaluaciones empíricas de los modelos de la serie Deepseek-R1-Distill.
English
Reasoning models represented by the Deepseek-R1-Distill series have been
widely adopted by the open-source community due to their strong performance in
mathematics, science, programming, and other domains. However, our study
reveals that their benchmark evaluation results are subject to significant
fluctuations caused by various factors. Subtle differences in evaluation
conditions can lead to substantial variations in results. Similar phenomena are
observed in other open-source inference models fine-tuned based on the
Deepseek-R1-Distill series, as well as in the QwQ-32B model, making their
claimed performance improvements difficult to reproduce reliably. Therefore, we
advocate for the establishment of a more rigorous paradigm for model
performance evaluation and present our empirical assessments of the
Deepseek-R1-Distill series models.