ChatPaper.aiChatPaper

La Evaluación es Todo lo que Necesitas: Sobreafirmación Estratégica de las Capacidades de Razonamiento de los LLM Mediante el Diseño de Evaluación

Evaluation is All You Need: Strategic Overclaiming of LLM Reasoning Capabilities Through Evaluation Design

June 5, 2025
Autores: Lin Sun, Weihong Lin, Jinzhu Wu, Yongfu Zhu, Xiaoqi Jian, Guangxiang Zhao, Change Jia, Linglin Zhang, Sai-er Hu, Yuhan Wu, Xiangzheng Zhang
cs.AI

Resumen

Los modelos de razonamiento representados por la serie Deepseek-R1-Distill han sido ampliamente adoptados por la comunidad de código abierto debido a su destacado rendimiento en matemáticas, ciencias, programación y otros dominios. Sin embargo, nuestro estudio revela que los resultados de su evaluación comparativa están sujetos a fluctuaciones significativas causadas por diversos factores. Diferencias sutiles en las condiciones de evaluación pueden generar variaciones sustanciales en los resultados. Fenómenos similares se observan en otros modelos de inferencia de código abierto ajustados a partir de la serie Deepseek-R1-Distill, así como en el modelo QwQ-32B, lo que dificulta la reproducción confiable de las mejoras de rendimiento que afirman. Por lo tanto, abogamos por el establecimiento de un paradigma más riguroso para la evaluación del rendimiento de los modelos y presentamos nuestras evaluaciones empíricas de los modelos de la serie Deepseek-R1-Distill.
English
Reasoning models represented by the Deepseek-R1-Distill series have been widely adopted by the open-source community due to their strong performance in mathematics, science, programming, and other domains. However, our study reveals that their benchmark evaluation results are subject to significant fluctuations caused by various factors. Subtle differences in evaluation conditions can lead to substantial variations in results. Similar phenomena are observed in other open-source inference models fine-tuned based on the Deepseek-R1-Distill series, as well as in the QwQ-32B model, making their claimed performance improvements difficult to reproduce reliably. Therefore, we advocate for the establishment of a more rigorous paradigm for model performance evaluation and present our empirical assessments of the Deepseek-R1-Distill series models.
PDF123June 6, 2025