ChatPaper.aiChatPaper

L'évaluation est tout ce dont vous avez besoin : Surestimation stratégique des capacités de raisonnement des LLM grâce à la conception de l'évaluation

Evaluation is All You Need: Strategic Overclaiming of LLM Reasoning Capabilities Through Evaluation Design

June 5, 2025
Auteurs: Lin Sun, Weihong Lin, Jinzhu Wu, Yongfu Zhu, Xiaoqi Jian, Guangxiang Zhao, Change Jia, Linglin Zhang, Sai-er Hu, Yuhan Wu, Xiangzheng Zhang
cs.AI

Résumé

Les modèles de raisonnement représentés par la série Deepseek-R1-Distill ont été largement adoptés par la communauté open source en raison de leurs performances solides dans les domaines des mathématiques, des sciences, de la programmation et autres. Cependant, notre étude révèle que leurs résultats d'évaluation de référence sont sujets à des fluctuations significatives causées par divers facteurs. Des différences subtiles dans les conditions d'évaluation peuvent entraîner des variations substantielles dans les résultats. Des phénomènes similaires sont observés dans d'autres modèles d'inférence open source affinés à partir de la série Deepseek-R1-Distill, ainsi que dans le modèle QwQ-32B, rendant difficile la reproduction fiable de leurs améliorations de performances revendiquées. Par conséquent, nous préconisons l'établissement d'un paradigme plus rigoureux pour l'évaluation des performances des modèles et présentons nos évaluations empiriques des modèles de la série Deepseek-R1-Distill.
English
Reasoning models represented by the Deepseek-R1-Distill series have been widely adopted by the open-source community due to their strong performance in mathematics, science, programming, and other domains. However, our study reveals that their benchmark evaluation results are subject to significant fluctuations caused by various factors. Subtle differences in evaluation conditions can lead to substantial variations in results. Similar phenomena are observed in other open-source inference models fine-tuned based on the Deepseek-R1-Distill series, as well as in the QwQ-32B model, making their claimed performance improvements difficult to reproduce reliably. Therefore, we advocate for the establishment of a more rigorous paradigm for model performance evaluation and present our empirical assessments of the Deepseek-R1-Distill series models.
PDF123June 6, 2025